微软近日解释了一连串故障事件导致北欧的一些Azure客户在近7个小时的时间内无法访问其服务。

影响概述:2017年9月29日协调世界时(UTC)13:27至20:15,由于一个存储可扩展单元(storage scale unit)无法正常使用,北欧的一部分客户在连接或管理该地区托管的资源方面遇到了困难。依赖该地区受影响的存储资源、因此受拖累的服务包括:虚拟机、云服务、Azure Backup、App Services\Web Apps、Azure Cache、Azure Monitor、Azure Functions、Time Series Insights、Stream Analytics、HDInsight、Data Factory、Azure Scheduler以及Azure Site Recovery。

客户影响:一部分存储资源不可用,这导致相关的虚拟机关闭,以确保数据持久性。一些Azure Backup保管库在故障持续的这段时间内不可用,从而导致备份和恢复操作失败。Azure Site Recovery可能无法故障切换到最新的恢复点或无法复制虚拟机。HDInsight、Azure Scheduler和Azure Functions可能遇到了服务管理和作业故障,资源无不依赖受影响的存储可扩展单元。Azure Monitor和Data Factory遇到了依赖这个可扩展单元的管道方面的延迟和错误。Azure Stream Analytics作业停止处理输入及/或生成输出持续了几分钟。Azure Media Services的数据流请求、上传和编码出现了故障和延迟。

解决方法:将虚拟机部署到配备托管磁盘的可用性集(Availability Sets)提供了弹性,可以为基于虚拟机的工作负载防范重大的服务影响。

根本原因和缓解方法:在一次常规的定期灭火系统维护期间,发生了意外释放惰性灭火剂的情况。灭火机制被触发后,它开始自动关闭空气处理单元(AHU),这是为火势控制和安全设计的系统。虽然数据中心里面的情况得到了重新确认,AHU也重新启动,但受影响灭火区的隔离区的环境温度还是高于正常的运行参数。由于受到内部散热监测机制的触发,受影响区域的一些系统自动关闭或重新启动,防止这些系统过热。触发惰性灭火剂灭火在第一时间就知道了,在随后的35分钟内,所有AHU恢复正常,环境温度恢复到了正常的运行水平。数据中心设施的电源在这次事件中没有受到影响。所有系统已恢复到完全正常的运行状态,在调查意外释放惰性灭火剂期间,进一步的系统维护已被暂停。由于上述事件的性质以及受影响灭火区的隔离区域的散热情况方面的差异,一些服务器和存储资源没有以一种受控的方式关闭。因此,需要另外的时间来排查故障,并恢复受影响的资源。一旦可扩展单元达到了所需的运行节点数量,客户就看到情况得到逐渐而稳步的改善,直到20:15 UTC完全解决了故障,这时存储和相关服务都已完全恢复过来。

后续步骤:我们对于给受影响的客户带来的影响深表歉意。我们在不断采取措施改进微软Azure平台和我们帮助确保此类事件将来不会发生的流程。在这里,这包括(但不仅限于):灭火系统维护分析继续开展,设备工程师查明意外释放惰性灭火剂的原因,并且减小再次发生的风险。针对这种场景下的存储资源,工程团队继续调查故障情况和恢复时间方面的改进。随着重要的调查和分析工作深入开展下去,我们会在10月13日周五之前发布该RCA的补充信息。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2018-01-04 09:19:43
云资讯 微软收购Avere Systems 进一步发展混合云计算业务
据国外媒体报道,目前整个科技行业都在向云计算过渡,但微软又将目光瞄准了一个新领域,试图将云平台和本地存储紧密的联系到一起,很好的解决在公共和私有云存储之间存在的 <详情>
2018-01-03 10:31:24
大数据资讯 IDC预计2018年IoT全球总支出达7720亿美元, 且看10大预测
新年新气象,2017年被称作物联网(IoT)元年,而2018年还将续写IoT的高歌猛进。根据市场研究公司IDC的报告,2018年全球物联网支出总额将达到7720亿美元。物联网解决方案供 <详情>
2017-12-29 09:49:00
云资讯 AWS和Azure等纷纷押注的公有云 有哪些成功经验?
公共云正在迅速成为企业选择基础架构即服务(IaaS)而不是在本地部署数据中心运营工作负载的战略工具。IT领导者分享他们的经验,并向企业的CIO提供迁移到公共云服务的建议 <详情>
2017-12-28 10:23:00
国内资讯 一个剥离 一个加码 传统CDN如何面对IDC业务
在阿里云、腾讯云和百度等为代表的互联网云计算厂商频繁降价的冲击下,多年来高价贩卖带宽资源的传统CDN厂商也不得不被动降价。网宿科技作为国内CDN行业的代表企业,受此冲 <详情>