像亚马逊这样的超大型数据中心运营商,在市场上已经找不到适合他们自身用的数据中心,或者他们认为自己建设数据中心会比使用市场上的更为便宜的时候,他们会考虑自己建设数据中心。建设期间会将一项技术内置在工程建设中,避免工程承包商描述为在电气开关设备供应商在对其产品设计中错误的定义优先级而准备。

亚马逊

正是这个问题导致去年夏天台达数据中心宕机,最终支付航空公司1.5亿美元的损失,还有2013年在超级碗期间的臭名昭著的停电事件。 亚马逊网络服务副总裁兼工程师约翰。汉密尔顿(John Hamilton)在其职业生涯中,同样遇到过这类问题。

他在个人博客的中写道:“这种大规模数据中心运营中,我自己经历过过两次。” 当这些失败发生的时候,那时候,他并不清楚这种是由于这种原因导致故障发生,这是发生在在他加入亚马逊之前,在微软工作期间发生的。

汉密尔顿并没有在他的博客文章中引用台达,但去年夏天只有一家主要的航空公司数据中心中断,随后航空公司后公布了赔偿达到九位数。

亚马逊处于这种考虑的设计避免这种停电的技术是固件,它决定了当数据中心电源中断时电气开关应该做什么。汉密尔顿说,典型的供应商固件优先考虑防止损坏费用昂贵的备用发电机,从而避免完全的数据中心中断。 亚马逊(也许大多数其他大型数据中心运营商)都倾向于冒着失去100万美元设备的风险,而不会去冒大面积停电宕机风险。

当公共设施停电(大多数时候都是这种情况)发生时,开关柜等待几秒钟,以防公用事业电力回来(也是最常见的情况),如果没有,开关柜将会启动发电机,而数据中心开始运行UPS系统存储的能量。 一旦发电机稳定下来,开关设备就成为IT系统的主要来源。

去年的台达数据中心停电归因于开关柜“锁定”在亚特兰大航空公司的发电机。 这是大多数开关柜在数据中心输入电力供电中感测到主要电压异常时设计的。 发电机短路通常会导致发电机炸飞,因此开关柜通常将发电机开关处于锁定状态,避免发生这类事故。

在大多数情况下,这个错误发生数据中心外部,因此这这类事故除了造成数据中心业务中断之外,没有其他英雄,Hamilton写道。 (他目睹的两件事是由于汽车撞倒了传输电缆导致公共电源中断所造成的)。在极少数情况下,数据中心内部短路,断路器断开,服务器切换到二次电源,或(如果配电系统中的故障较高或断路器未能打开),发电机未锁定时可能会损坏发电机。

“我宁愿投入低于100万美元的风险,而不是保证负荷将下降。 他说:如果只有一个客户可能会亏损1亿美元,那么储存发电机就不会像是正确的优先事项。”

当亚马逊工程师要求他们的开关柜供应商从其固件中消除锁定状况真个固件时,是他们应了解到取消后带来的潜在的设备故障 – 但供应商却拒绝取消,亚马逊只能自行生产固件。

汉密尔顿写道:“我很幸运能够在一个大规模的运营商公司工作,因为定制的缘故,我们早在几年前就解决这种特定的故障模式。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-10-09 13:15:37
2023-09-25 17:36:03
互联网 1—8月份,我国电信业务收入累计达11417亿元
截至8月末,5G基站总数达313.8万个,占移动基站总数的27.5%。 <详情>
2023-09-25 14:27:47
机房建设 “信力量 新可能”走进中企通信云数据中心(上海站)暨“算力中国行”上海站 活动圆满结束
在全球范围内拥有强大ICT资源的中企通信,也得到了众多如上海联合产权交易所等国内外知名企业的“青睐”。 <详情>
2023-09-25 10:19:13
国内资讯 数能相融 品牌新生|合盈数据发布绿色数能品牌—GED³
伴随着产业实践的深入,合盈数据将产业融合创新、生态可持续发展的认识总结提炼为GED³。 <详情>