1

近日,欧洲云计算巨头OVH位于法国莱茵省首府特拉斯堡的数据中心发生严重火灾。其中最先起火的SGB2数据中心被完全烧毁,摧毁了所有服务器和数据;SBG1建筑物部分受损,三分之一的服务器受到损毁;SBG3因受到消防保护暂未受到影响,以及SBG4确认没有受到波及。目前,该区域4个数据中心均暂时关闭了服务。

2

据报道,该数据中心起火后,导致约360万个网站瘫痪,1.2到1.5万名客户的资料可能受到影响。OVH一家游戏公司客户表示,大量玩家数据已经因火灾丢失,且无法恢复。

这场熊熊大火给OVH数据中心造成了巨大的损失,也给整个数据中心行业敲响了警钟。事实上,风险一直存在,我们能做的就是最大程度地避免悲剧再次发生。水火无情,可靠先行,如何保障数据中心的可靠运行至关重要。

智能供电实现故障可视可管

据数据统计,数据中心基础设施中断有39%是由供配电引起,而供配电系统一旦中断,损失将非常惨重。传统供电系统采用分散部件集成的方式,不同厂家、不同品牌设备无法统一可视化管理,大部分设备为哑设备,发生故障无预警,难以迅速定位,导致数据中心可靠性低,易引发火灾隐患。

通过融合数字化技术,实现全链路可视可管,可大大增强数据中心的可靠性。如采用IOT技术,可实时监测电压、电流、开关状态和关键节点温度等参数,可直观展示异常状态,便于定位故障。同时通过大数据分析对关键器件寿命预测,防患于未然。此外,备电系统作为关键子系统,对数据中心可靠性的影响毋庸置疑。传统铅酸电池频繁充放电会造成活性物质软化等反应,易膨胀爆炸引发火灾。而采用磷酸铁锂的智能锂电系统可免去日常巡检,在热失控的情况下不产生氧气,不起火,可靠性更高。

数字运维实现风险可防可控

传统大型数据中心运维依赖于人工运维,对运维工程师技能要求高,而现实中高达38%的数据中心招不到合格的运维工程师。同时人工运维效率低下,巡检多为被动响应,质量不可控。数据显示,2019年数据中心基础设施失效故障率比2018年上升6%,其中80%为可预防性故障。由此可见,传统运维模式在故障巡查、检测、隔离均存在极大风险。

随着数字化变革不断深入,数据中心基础设施将逐步实现运维的自动驾驶。目前,通过数字孪生技术,可实现部件级、设备级、系统级、链路级、机房级、多DC全局可视,分钟级告警根因智能定位,可显著缩短故障修复时间。同时融合人工智能技术、大数据分析对关键器件(风扇、电容、电池等)寿命预测,通过温度、图像、声音识别进行全链路预测性维护,实现从被动告警到主动预防,极大提升系统的可靠性。

预制化架构实现数据中心高可靠性

传统数据中心建设采用攒机模式,建设周期不仅长达20个月以上,而且各个子系统之间孤立,规划和建设分离,拼凑式建设模式给后续运维管理带来了极大的难度,风险不可控,影响整个数据中心的可靠性。

而采用预制模块化的建设模式,将各个子系统预集成在模块内,在工厂进行预制组装,标准化生产流程,各个模块品质如一,多系统协同设计,并且在出厂前完成全系统调试和测试,确保高质量和高可靠性。同时现场只需完成极简施工,可大大降低现场管理难度及施工风险,有效提升数据中心可靠性。

本次欧洲顶级云数据中心着火事件敲响的警钟,也进一步印证了打造高可靠的数据中心,需要从部件、设备、子系统上升至整体来考虑。作为数据中心领域的创新领导者,华为从全局视角出发,紧紧围绕数据中心的整体可靠性,创新打造预制模块化数据中心解决方案。该方案融合AI、预制模块化建筑、数字化全生命周期管理等多重创新技术,将智能IT模块、智能电力模块、智能温控模块、智能管理平台等核心子系统全部预集成预测试,所“见”即所得,显著降低施工和交付风险。乐高式搭建,现场土建与工厂生产同时进行,可缩短50%以上建设周期。同时将人工智能和数字化融入数据中心的规划、建设、运营、运维、优化迭代全过程,贯穿全生命周期,实现全链路可视,AI预测性维护,防患未然,筑牢数据中心的坚实“防火墙”。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-03-18 10:01:00
2021-03-17 18:49:59
2021-01-04 09:54:00
云资讯 紧跟新基建步伐!总投资15亿元的浙江省丽水云数据中心启用
近日,位于丽水经济技术开发区的丽水云数据中心一期数据大楼正式启用。 <详情>
2020-12-30 14:15:04
国内资讯 中国航信建成新一代云数据中心,助力经济转型升级
处江河湖海交会之位,扼太湖南走廊之咽喉,位于长江三角洲中心位置的浙江省嘉兴市,凭借其优越的地理位置与便捷的出行环境成为长三角一小时经济圈核心城市之一,这里也是中 <详情>
2020-12-18 08:58:04
运维管理 托管数据中心的停机响应和支持
当组织的IT硬件不在内部部署数据中心运营时,解决其发生的故障可能很棘手。因此,这些组织必须与托管数据中心服务提供商签署完善的服务等级协议(SLA),以确保快速响应。 <详情>