近日,一套外部水冷系统发生冷却液泄漏事故,直接导致OVH公司在巴黎数据中心内的一台戴尔-EMC VNX存储阵列遭受损坏,进而引发超过5000个网站在接下来的24小时内无法正常访问。冷却液泄漏给该公司位于巴黎数据中心内的VNX阵列带来灭顶之灾。

OVH

OVH公司为目前全球第三大互联网托管厂商,其在世界17个国家拥有20座数据中心以及多达26万台服务器,其中托管着约1800万款Web应用程序。

此次事故发生于6月29日晚7点左右,直接影响到OVH公司位于巴黎的P19数据中心——这亦是该公司于2003年建立的首座数据中心。不过其规模随后被位于格拉沃利纳的新数据中心所超越,后者为目前欧洲最大数据中心,部署有约40万台服务器。

OVH公司在其P19数据中心之内采用自主研发的水冷解决方案。冷却液经由服务器机架及其它部件通过组件级热交换装置进行循环冷却,且与顶架式水箱热交换装置相对接。在完成一轮循环后,其与地下水进行热交换以实现自身冷却。这套方案能够有效替代以空调系统为核心的风冷机制,从而节约大量电力。

OVH1

OVH公司机架水冷系统

根据事故记录显示,P19数据中心亦在地下室内部署有多台设备,负责通过外界空气实现冷却效果。

OVH公司于2012年从EMC手中购买了数台VNX 5400阵列。此次发生事故的阵列在其三台机架当中装有96块SSD、15套本地磁盘架以及标准的主动-主动控制器对。该公司表示:“这套架构的设计目标在于确保数据的本地可用性以及数据控制器与磁盘的强大容错能力。”

在此之后,该公司又陆续开发出新的解决方案,其被应用于格拉沃利纳数据中心,能够通过非专用商业阵列配合Ceph与ZFS以摆脱对专用设备的依赖。事实上,此次受到影响的阵列原本也已经被纳入清退计划。这两台VNX阵列作为数据库服务器使用,负责为托管网站的动态页面提供数据、用户相关信息以及博客平台中的文章文本与评论内容。

根据事件报告撰文,“6月29日星期四下午6:48,P19数据中心内的3号机房中,由于水冷系统的塑料软管发生破裂,因而导致冷却液泄漏至服务器系统之内。”

“我们两套专用存储托架(机架)中的一套并未使用水冷机制,但由于位置毗邻而受到影响,并直接引发电气故障,最终造成该托架彻底关闭。”

OVH公司承认其将两种采用不同冷却机制的服务器安装在同一机房之内是个错误。“我们做出了错误的判断,我们本应为这些存储设施提供最大程度的保护,正如我们在其它站点中所做的那样。”

在此之后,音频警报系统内发生的故障则更为复杂。能够检测机架内液体的探针确实在整座数据中心之内广播了音频警报消息。然而由于此前未能成功为该系统添加多语言支持功能,因此其警报时间点相较泄漏事故出现了延迟,并最终造成长达11分钟的时间间隔。

当天晚6:59,工作人员尝试重启该阵列。当天晚9:25,工作人员未能成功完成重启,并决定采取双管齐下的处理方式——继续尝试重启该故障阵列(A计划),同时尝试利用备份将其数据恢复至辅助系统(B计划)。

A计划

当晚8:00,OVH方面向戴尔-EMC公司拨打求电话,并最终完成了阵列重启。然而,运行20分钟后由于安全机制被触发,阵列再度陷入停止状态。面对这样的情况,OVH公司技术人员决定从法国鲁贝数据中心内选定第三台VNX 5400阵列并将受影响设备上的磁盘驱动器转移至新机架当中,从而替换发生故障的电源模块及控制器。

来自鲁贝数据中心的这套系统于次日清晨4:30被运送至巴黎数据中心,6:00全部磁盘驱动器转移完成。同日早7:00,替代系统启动完成,但遗憾的是磁盘上的数据仍然无法访问。OVH于早8:00再次联系戴尔-EMC技术支持人员,并申请了现场服务。

B计划

B计划使用的资源来自一套日常备份方案,OVH方面指出“这是一套全局基础设施备份,属于我们业务恢复计划中的组成部分,而非客户能够直接访问的数据库快照。”

“进行数据恢复不仅意味着需要将备份数据由冷存储介质迁移至共享托管技术平台中的空余空间内,同时说需要对整体生产环境进行重建。”

具体来讲,为了完成数据恢复,OVH公司需要:

在P19数据中心之内从现有服务器上找到充足的可用存储空间。

迁移整套支持服务运行环境(即负责运行数据库的虚拟机、相关操作系统、其特定软件包以及配置文件)。

将数据迁移至新的托管基础设施当中。

这一流程此前虽然进行过基础测试,但却从未以高达5万个网站的规模进行实际操作。整个流程通过脚本实现,且直到次日凌晨3:00,虚拟机克隆工作才正式开始进行。

次日早9:00,已经有20%的实例得以恢复。时间继续推移,“次日晚23:40,最后一个实例的恢复工作终告完成,所有用户皆可正常访问其站点。惟一的问题在于,部分用户原本托管的MySQL 5.1实例被恢复成了MySQL 5.5版本。”

很明显,受影响阵列的灾难恢复流程并不顺利。而且尽管OVH公司的技术支持人员表现出色,但这种状况本可以得到避免。

VNX阵列被安装在了错误的机房当中,除此之外,其还缺少必要的故障转移规划。事实上,主动灾难恢复计划与测试并未能起到应有的作用。

与受影响用户间的沟通亦饱受诟病,OVH公司的表现相当消极。“作为事件的起源,水冷系统冷却液泄漏让我们彻底陷入了恐慌。”

我们该从中总结出哪些经验?

不要将存储阵列与液体同置一室。

面向全部关键性系统组件建立完善的灾难恢复计划与测试方案。

应定期进行审查以配合系统组件的更换。

除非对更新规程进行严格测试,否则不要轻易对关键性系统组件加以更新。

原文标题:OVH遭遇服务器冷却液泄漏事故 导致长达24小时服务中断因为冷却液泄露 

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

扫描二维码,将会有专人将您拉进“大数据交流群”“云计算交流群”“区块链交流群”“物联网交流群”

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-08-11 11:19:00
国际资讯 OVH公司在波兰的数据中心将提供云服务
法国数据中心托管和云计算服务商OVH公司在波兰华沙的数据中心设施开通运营一年后,该公司将基于已经部署的基础架构,利用由OpenStack技术提供支持的专用服务器和SSD VPS。 <详情>
2017-07-07 09:30:00
国际资讯 OVH公司在德国林堡开通一个大型数据中心
法国托管数据中心巨头OVH公司在德国开设了第一个数据中心,为近45,000台服务器提供了数据中心空间。这个位于林堡的数据中心设施,代号为LIM1,建在一座废弃的工业大楼内, <详情>
2017-06-27 09:35:00
国际资讯 OVH公司将在法国开通第二个数据中心园区
日前据悉,法国托管和云服务提供商OVH公司在法国北部城市鲁贝建设的第二个数据中心园区即将峻工,并计划在今年10月开通运营这一新的数据中心。 <详情>
2017-05-09 18:18:00
云资讯 法国云服务供应商OVH接盘vCloud Air公有云服务
OVH已经获得了vCloud Air的数据中心、客户运营系统、客户群和vCloud Air团队的技术支持。接下来,vCloud Air的用户可以利用OVH的众多优势来实现从vCloud Air到OVH的平滑过 <详情>
2017-03-01 10:44:10
国际资讯 OVH公司在波特兰附近收购一个数据中心
日前,法国网络托管和云计算专家OVH公司在美国俄勒冈州波特兰附近收购了一个空间为112,500平方英尺的数据中心。 <详情>