互联网时代,服务器机房可谓心脏,大型机房出故障是小概率事件。但即便如此,依然可能出现自然灾害、断电、光缆被挖断等黑天鹅事件。

有人斗胆下了个战书:如果多个机房的光缆同时被挖断,40%的服务器突然无法工作,结果会怎样?

结果,居然还真的有人敢来应战。此人便是蚂蚁金服副CTO胡喜。

据报道,在9月20日的云栖ATEC主论坛上,蚂蚁金服副CTO胡喜在现场特别模拟了剪断支付宝位于一个城市中两个模拟机房的光缆。

20

一旦机房发生故障,会怎么办?

首先,设想一下服务器机房如果发生了故障,我们的生活会出现什么样的变化?

断网了,或许打不通网页,或许拨不出电话,或许各种失联……

有人说如果服务器机房发生变化,在支付宝领域,遇到的大困扰就是转账失败。

转账失败?付不了帐?买不了东东,这可肿么办?

蚂蚁金服正是这样做了这样一次尝试性实验,此次实验被差评君(ID:Chaping321)全程记录。

现场在模拟支付宝转账的同时,程序员剪断了位于杭州一个模拟机房的光纤,当光纤被剪断后,这个模拟机房所负责区域的任何业务都不能处理。这就是转账失败的原因。

21

蚂蚁金服副CTO胡喜现场解释,这是演习。

然而,在真实环境下,如果支付宝部署在两个城市的两个机房同时出问题,据官方宣称,跑在这两个机房上的支付宝账户,恢复正常的速度是分钟级。精确地说,只需要26秒,模拟环境中的支付宝就能完全恢复正常。

分分钟就能完全恢复,这完全颠覆了宕机停服几个小时的传统印象。

为什么能在这么短的时间,能让故障排除,迅速恢复到正常工作的情况?

据悉,这是因为这一机房架构叫“三地五中心”,即在三座城市部署五个机房,一旦其中一个或两个机房发生故障,其底层技术系统会将故障城市的流量全部切换到运行正常的机房,并且能做到数据保持一致且零丢失。

目前,互联网和金融科技行业普遍采用的是“两地三中心”部署架构,即在一个城市设两个机房,在另一个城市设一个冷备机房。

22

而在这个实验中,城市A的两个机房是服务大众的,不管是转账、缴费还是查账全部都由这两个机房提供服务,而且两个机房是同步在处理数据且数据一致的。但在城市B的备份机房只是做备份而已,并不参与服务大众这一活动。

一旦城市A的两个机房被自然灾害等毁坏就不能继续对外服务,那只能让程序员熬夜去切换另一个城市的备份数据。但是由于B城市的机房常年没有工作(提供服务),整个机器都处于“冷冻人”的状态,所以切换前还需要校验数据,再预热等等复杂的操作后才能让服务再次畅通。

这就是为什么很多App服务器挂掉的时候,要花很久时间才能恢复的原因。

23

据悉,上图是支付宝的城市级故障自动容灾系统,是它支撑了26秒的灾后恢复。

灾备方案有备无患

目前来看,主要的数据备份方式如下:

定期磁带备份:包括远程磁带库、光盘库备份和远程关键数据+磁带备份。

数据库备份:就是在与主数据库所在生产机相分离的备份机上建立主数据库的一个拷贝。

网络数据:这种方式是对生产系统的数据库数据和所需跟踪的重要目标文件的更新进行监控与跟踪,并将更新日志实时通过网络传送到备份系统,备份系统则根据日志对磁盘进行更新。

远程镜像:通过高速光纤通道线路和磁盘控制技术将镜像磁盘延伸到远离生产机的地方,镜像磁盘数据与主磁盘数据完全一致,更新方式为同步或异步。

这些措施能够在系统发生故障后进行系统恢复,但是这些措施一般只能处理计算机单点故障,对区域性、毁灭性灾难比如地震、火灾等则束手无策,也不具备灾难恢复能力。

灾备场景涵盖面广,方案复杂,传统数据中心容灾方案存在CAPEX、OPEX高昂、数据同步策略复杂、灾难恢复效果有限等问题。企业有必要采用多云灾备策略,以保证业务连续性及关键数据可靠性。我们就需要建立异地容灾中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏。建立的异地容灾中心可以简单地把它理解成一个远程的数据备份中心。

如今,数据中心相关行业越发重视灾备方案,业界已有许多优秀的灾备方案问世。7月,华为云Multi cloud混合云灾备解决方案;8月,浪潮推出并展示了基于Openstack的“同城双活、多云数据中心灾备解决方案”….期待,未来越来越多的灾备方案,能让数据更安全,用户更安心。

【中国IDC圈原创 未经授权禁止转载】

相关阅读:

5G元年呼之欲出 A股产业链大起底

迎接5G:移动、联通、电信正在全力关闭2G/3G网络

5G收割战:高通高按批发价5%收专利费 诺基亚为3欧元

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-22 15:25:05
2024-01-19 15:41:34
国际资讯 亚马逊宣布将在五年间在日本投资150亿美元 用于扩建数据中心
此项投资将主要用于扩建该公司在日本的数据中心,并加强其在当地的业务运营。 <详情>
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>