9月27日,由云计算发展与政策论坛、数据中心联盟指导,开放数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016ODCC开放数据中心峰会”在京隆重召开。在下午“行业数据中心技术发展及最佳实践”的分论坛上金融专家李总发表了题为“数据中心机房环境动力运维管理交流材料”的演讲。以下为演讲全文:

金融专家

金融专家 李总

我大概讲三部分。一个是说说基础设施对于地方的重要性,第二部分就是讲讲我们的机房环境动力这块的故障特点,最后给大家分享一下,现在的数据中心在运维方面有那些更好的想法。

大家都知道,我们这几年整个这个行业数据中心,建得越来越高大上,然后后期的运维实际上使现在的各个行业,不管是互联网,还是运营商,还是金融行业,现在对它的安全性、可用性也是越来越重视。然后我们这几年大家都知道,比较大的事情就是说,对于社会层面影响比较大的,我给大家罗列了一下,比如2011年的某一个全行,就是整个全国下午在业务高峰的时候停了两到三个小时,当时银监会也发过风险提示,我是风险提示的起草人。

第二个就是大家都知道,2014年的银行电池着火,我大概算了一下,光2015年实际有咱们各个行业不同层次都出现过各种业务连续性运营的事件,今年第一个人民银行风险提示就是3月份某家银行EPS,也是电池着火引发了UPS整个数据中断,这个我大概研究了一下,以前好多部门设计照明的时候用EPS,我们在银行我参与的各个行的方案设计,我们尽量还是不用这个东西,还是用TS来直接带,完全可以不用这种EPS,因为你有了这个东西它得维护,说到这儿正好后面也说,数据中心的维护里面,就一个电池,大家可能重点都放在UPS的电池上,实际上数据中心有五大块和电池同等作用,一个就是配了应急照明,或者是这个上面EPS的电池,另外一个UPS电池不用说,第三个就是大家都知道,现在这里面正好这个是咱们运营商比较多,运营商有好多设备是用的直流电源,负24伏的,它也有电池,还有一个就是我们所有的高低压控制系统二次回路控制电源,好多也是需要110伏直流,也是要电池。还有一个就是发电机的启动电源,咱们开车的人都知道,咱们开车电瓶很重要,这几个重要性实际上是一样的,这个是EPS它的房间,是UPS的输入和输出,中间恰好就隔了EPS的房间,它实际上并不会马上把UPS输出会烧至中断,但是因为第一它有监控,这个房间我们也看过,有监控,然后监控报警没报上,第二个这个屋子里面居然还有气体消防,它还设了气体消防系统,气体消防系统正好那一段,它的控制系统坏了,起不了作用,喷不了,然后当时这个房间里面是没有用门禁,它不是电子门禁,它是用的消防锁,然后电工一紧张,把钥匙还纳错了,这又耽误了一二十分钟,这个银行也有同城中心,这个时间点正好同城中心在改造,从这一个事实上连锁引发起了这个事件。

当然最近咱们也看,托管公司UPS升级过程中,造成供电中断,原因写的是发电机失磁,这个原因写得很好,实际上这里面有设计的问题,有运维的问题。比如设计它整个所有系统是并行单母线系统,又是在线更换,它这时间点,因为它托管了几十家银行的业务,然后在选择这个变线时间点又是个下午时间,这在金融行业实际上是根本不允许的。这里面做的过程不用说,然后大家都知道,它是个并行单母线,害怕换的过程中,因为中间会转旁路,市电供电,他们喜欢用发电机,觉得发电机我能控制住,我来发电,提早就停了市电,起了发电机,而且害怕发电机带不动,正好又把空调放在市电上,然后整个全部是UPS负载。大家都知道,UPS发电机最害怕的就是负载,如果容性超前9.5,它的电载能实际上是持续下降,实际上我也做过实验,我们在负荷很小的时候,UPS,后面大功率UPS的时候,可能说连三分之一的额定功率都达不到。

下面这个也影响很大,一个城市半个城市,几乎四分之一城市在最热的天气,因为我有亲戚在哪儿,深受其害,停电,这是咱们的电力部门,它实际上是下面35千伏的站,当时它的站里面的给35千伏变电站供电的电缆头,按供电局一般的做法,虚接的可能性不会太大,要不就是它长期过载引起高峰,当时他们是连续接近40度高温下,实际上就电缆头打火绝缘层击穿,造成故障,本来一个35千伏在一个大城市里面,没有多少户,但是它整个把上面的110千伏,220千伏全部顶掉,最终原因我看了,这个短路正好它上端供电站,就是我刚才说的二次回路控电系统的电池,它这个一短路,上面肯定要到电瓶直流110伏保护其他上极的电站,结果它电池就没有接在二次回路上,它烧了好多变压器,有母线,有电缆,就是这样导致影响比较大。当然金融行业和各个行业都一样,重要性不言而喻,原来好多说停一秒钟是损失几百万美金,现在远远不止这个数字,可能这连个广告费都不够。在金融行业,因为人民银行银监会和监管部门也对这块越来越重视,以前可能就说在省级这种银行的范围才会通报,现在实际上在二级分行,相当于一个地市级单位出了故障,就会全国通报,尤其有了《安全法》以后,把金融行业数据中心也纳入到安全范围内,现在各大银行的总行都成立了数据中心,银行的安全生产委员会,都是一把手当主任了。

然后我们看一下这个故障的特点。这也是借用别人的,按我做了二十多年,几百个数据中心的运维管理经验来说,机房的故障可能最后达到了一半多,就53%,大家看,有各种可能引起数据中心出问题的因素。然后数据中心故障来源一般有三大块,一个是先天不足,就是前面我说的刚才那几个市里面,有好多是从设计的时候就有问题,从设计、规划、建设,然后到你选择的供电方案,制冷方案等等。第二项就是设备故障,设备没办法,你买再好的设备,它永远不可能达到1,都会出故障,而且随着它后面,一个是它早期刚安装上的前三年,好多行业大家都知道,招标的时候都会让你保修2到3年,就是这么来的,这个时间是最容易出故障的,再好的设备保证不了,再加上它选型、配置会占一部分。

另外一个很重要的就是运维的问题。一切都是由运维管理不到位引发的故障。我们看前面的所有案例里面,有设计的问题,也有设备的问题,但是大多数里面都肯定有管理的问题。由于时间关系,实际上每一个环节都有可能,因为我有大量的案例,我们曾经会出现的各种问题。现在大家能看出来,最近好像蓄电池出事儿比较多,现在当你把这个,尤其在金融行业,我们设计的时候,到二元结构,当然我是最不反感说TI942的东西,我就说我们国家IT集团吧,这个一般我们设计出来以后,现在实际上供电系统和制冷系统本身引发的数据中心停业的很少,反而是我们现在统计下来,最后都是在市电停了,你设定好多是关键的时候,发电机用不上,电池用不上,这是最多的例子,这个由于时间关系我就不详细说了。

然后总结了一下事故整个原因,我给大家就按我们的经验来说。个别设备质量问题,然后设计不合理,日常维护管理工作不到位,再一个就是好多出事儿的,就是机房陈旧寿命老化,还有应急措施和管理措施,出现故障的时候,应急不当引起的二次事故。另外一个就是机房在改造过程中,因为现在金融行业里面有大量的,多半的数据中心已经都工作了十来年,这因为也是整个一个行业它发展的变迁,有好多机房现在都已经承载了十年以上,这样的话,现在大量的机房改造过程中,出了好多事,大家都知道,深圳一家银行也是在改造过程中出事的。

然后给大家简单说一下。大家都能看到,海恩法则大家都知道,每一期严重事故的背后,必然有二十九次轻微事故和三百期,以及一千期事故隐患。所有的事故肯定都是量的积累,所有的电着火,所有的开关跳,刚开始都不是一次性的,可能那个是你长期的过载,或者长期的散热不好,引起逐步的绝缘老化,才会造成它的短路。实际上这种就说明了一个这个问题。

然后我们在银行监测环境,我们一般管理体系会建立相应的管理制度办法,这是一个总纲,按照这个总纲,然后制定它自己的工作手册、维护手册、应急手册,最后再把这个手册要细化到详细的工作流程里面,后面当然包括维护的手段和工具,这是简单的流程。当然管理办法和细则一般我们会明确各单位的工作职责,会有一些总的要求,对机房实际上是安全防范这块的要求更多,后面在这个之下,我们会设立机房运行维护规范。大家也知道,最近住建部和工信部我们联合在做建标准院,现在的数据中心行业实际上以前叫机房,现在改成数据中心以后,有两个国标现在颁布,现在只是出来初稿,还没有正式颁布。还有一个验收数据中心已经颁布了,现在正在做的一个是数据中心建设的规范,这是发改委和工信部,我们在做,这是电子标准院试院在做规范,还有设施运维规范,这两个初稿都出来了,最近在讨论一些新的东西。

然后我认为就是说,我们觉得数据中心实际运维分三块,一个是日常的维护,这个就包括你值班巡检每天的工作,另外我大量的时间花费在预防性维护,这包括定期的定性化维护,定期的保养,定期的检查,有的可能是托外包做的,有些自行维护的,大量工作都在这块,这个都是为了保证我后期出现故障的时候,能及早去发现故障。然后真正出了故障,我们要作好应急管理,事实上就分了这么三大块。

然后这些应急场景,各个单位都会根据不同的,按照重要级别程度定一些场景。但是事实上核心的,我们这是比较重要的几个,需要应急的。然后我们看一下整个机房的智能化管理,早期的时候,最早的UPS厂商能给我们带一个原装监控板,这时候的用户一般都会Excel表,自己建资产和设备关系。后来发展到有了HCAD,我们才自己在做,到2010年前的话,有些厂家已经开始做免费巡检,后来发展到有了环控,现在已经有了智能巡检。现在在环控的基础上,大家知道最近这两年已经开始有了环境动力管理平台,不仅仅是这一方面,现在也有了热成象,可视化,然后有一些专门精细的管理系统,另外把环控和设备的配置管理、资产管理结合起来,这两年也是比较火的,当然还有一些做的这个各种的管理工具,就是让你直接用它这个工具,起了一些运维人的作用。这是一些管理工具的功能,这个就大概说一下。

然后现在有一些动力管控系统,在原来的环控基础上,现在还可以处理电源质量,我要时刻监测供电质量。前面如果有这些东西的话,你及早去发现,就不会出现到你真正做改造的时候,才能发现故障。当然有了智能化管理,一个就是说我有了这一套东西,我就可以达到事前事中和事后的分析,这是我一个作用,另外一个可以解决单位人力不足的问题,第三个就是有了这个可以提高工作效率,第四个是通过数据自动采集和自动分析,可以提高工作效率,有了这套系统,像我们现在全行都是实时的,PUE大家知道,当时定E的时候是没有说时效的,它可以说是一个节点的PUE也行,你说一个月的也行,说一年的也行,现在我们都是连续的PUE,你要一个月的也行,要半年的也行,没有这种系统靠原来人工的,我们原来也是单靠人工是达不到这样的要求的。

这样我们在后面做的时候,在工行不光是PUE,我们还要创新性的,这在银监会已经获了二等奖了,我们还做了一些,就说你不光考虑你的电的效率,还要考虑空间使用效率,机柜使用效率,我们整个一个综合的才能说明你这个数据中心节能情况怎么样。行,今天我就给大家分享这么多,谢谢。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-25 17:36:03
互联网 1—8月份,我国电信业务收入累计达11417亿元
截至8月末,5G基站总数达313.8万个,占移动基站总数的27.5%。 <详情>
2023-09-25 14:27:47
机房建设 “信力量 新可能”走进中企通信云数据中心(上海站)暨“算力中国行”上海站 活动圆满结束
在全球范围内拥有强大ICT资源的中企通信,也得到了众多如上海联合产权交易所等国内外知名企业的“青睐”。 <详情>
2023-09-25 10:19:13
国内资讯 数能相融 品牌新生|合盈数据发布绿色数能品牌—GED³
伴随着产业实践的深入,合盈数据将产业融合创新、生态可持续发展的认识总结提炼为GED³。 <详情>
2023-09-11 18:37:24
云资讯 吴泳铭接替张勇出任阿里云代理董事长与CEO
阿里巴巴公司将继续执行之前宣布的计划,对阿里云智能集团进行分拆。 <详情>