中国IDC圈7月1日报道,2016年6月24日,由数据中心联盟金融信息技术委员会主办、中国IDC圈协办的"2016金融信息化成果展示会"暨金融信息化技术委员会成立一周年报告会在北京国际会议中心盛大召开。

本次会议持续一天时间,共设置了一个主论坛和三个分论坛,分论坛包括大数据专场、数据中心专场、云计算专场。会议特邀了国内各大银行技术大咖及业界精英齐聚一堂,共同探讨"互联网+"时代下,我国金融信息化发展的现在和未来。其中,珠海派诺科技股份有限公司副总裁徐义出席“数据中心专场”并发表了题为《金融数据中心基础设施运维自动化解决方案》的精彩演讲。

数据中心--徐义

珠海派诺科技股份有限公司副总裁徐义

以下为徐义演讲实录:

徐义: 其实谈到运维,其实我们知道运维一个铁三角,哪三角呢?一个是运维的团队,第二个是运维的对象,第三个就是我今天要给大家分享的,就是运维的工具。其实我们一直在业内针对,特别是金融的数据中心不同的业态,我们有不一样的工具去提供给大家,我们把它归纳为叫四化,什么叫四化呢?对一种小机房我们叫监控一体化,对于大型的数据中心我们认为叫系统的专业化,还有一个如果真是谈到运维,一定要第三个层面,我们叫控制的自动化,但是对于我们多地的有多个数据中心的管理来讲,其实我们还要去谈它的感觉的智能化,这是我们的四化。

其实工具的提供和应用,其实不是目标,我们也不是为了让用户去使用我们的工具。真正的想法是我们能帮助客户一起达到整个机房数据中心的一个管理的效能,无论是说去帮助客户降低它的运营成本,还是去帮助它能够提高我们整个数据的可靠性,这才是我们最终的目标。所以工具的使用,其实是为目标所服务的。

这个是我们整个未来的一个愿景,我们能够根据不同的客户需求,能够提供这种定制化的产品和服务,来帮助客户去打造这种可持续的一个绿色的数据中心的发展。

记得去年我们金融委员会第一次成立的时候,我们有一次大会,当时我们第一次把我们整个四化给全面的向我们的用户和我们的合作伙伴做的一个展示,我们再回顾一下这四化。对于小机房来讲,我们希望叫维护一体化,就是说它根本不需要我们的后台去再做支撑,在现场就可以就地显示,同时可以把各种的事件,能够传递给相关的运维人员,同时能够对所管理的设备里面的报警,能够提前去预知。所以我们认为这是监视管理的一个范畴。

对于数据中心来讲,这时候我们需要去用这种垂直化的架构帮助客户打造他专业化的系统,这个是什么概念?过去我们脑子里面一直记得的概念,在未来大型的数据中心概念里面已经不会存在了,为什么呢?因为它会被垂直化的系统去替代。我们经常把它分为三类,第一类就是电的专业,从中央到地方,从整个DUS的配件,这么端对端的感觉。第二个就是制冷,包括若干的新风,真正我们所剩的门禁、视频这些,就放到我们VI里面去。所以这也是一个历史发展不可逆的趋势。

第三块就是对于真正的数据中心来讲,它面临着很大的挑战,我如何对一个非常庞大而复杂的系统,如何去保证它的可靠性?我们谈到这个可靠性,我们其实很多时候只是谈了可靠性的一个内涵,那个内涵是什么呢?它叫静态可靠性,但还有一个动态可靠性,什么叫动态可靠性呢?当我们在数据中心里面,当我们的基础设施出现故障的时候,我们如何去应对?可能我们有我们的事故演变,有我们培训等等等等,但是其实这些对真正发生事故来讲,其实是很难去应对和处理的。

我们四化里面讲到两化,一个是可视化、专业化,包括运维的自动化。再往上我们谈的是管理的智能化,因为对于总行级的管理来讲,或者多地的管理来讲,到底我们的数据中心我们从规划、设计到运营有这么多的专业,有这么多的区域到底什么样的管理是合适的?什么样的数据中心对我们企业来讲是匹配的?所以这里面就需要大量数据挖掘,不光是对我们的技术、人员,所以我们谈到管理智能化。

这张图是去年在大会上跟大家分享的,今天在这个场合我觉得有必要做一个回顾,为什么?重要的是你这个平台到底是针对什么样的客户问题能够提供什么样的数据的支撑?并且这样一个平台,它是对我们银行的各个专业系统,包括整个财物的数据对接,同时能够真正去为我们的总行级的决策,这个就是我们今天早上人民银行杨总谈的,他上升到运营层面,他不是运维。所以这个图我想大家一定要记住,我希望能够给我们一个影响,一定能够对在座各位面临的困境和未来的发展所思考的问题进行一个深入的交流,它是一个定制化的服务,而一定不是一个标准化的产品。

回到我们今天谈的主题,大家还记得这个主题是什么吗?运维的自动化。我想在座的各位脑海里肯定有个场景,当我们谈到运维自动化的时候,其实大家知道我们在整个的智能专业里面,其实大家都已经非常接受了,我们在整个的不管是我们现在用的这种山寨模式,还是说当我们在机房,正常运行情况下,它整个冷机的运行情况是不一样,它需要根据室外的温度,需要根据我们制冷源,它需要对我们整套的空调里面各个设备,可能包括冷机,可能包括变频阀啊等等等等一些,所以目前很多的,在这个专业里面我们唯一能够去接受说,我们可能要去找像派诺这样的公司去合作,因为我们在业内也做了很多案例出来。

这就是我们在很多设备上整个制冷的界面图,很多用户已经接受了说在制冷领域我们需要自动化。今天我们要谈另外一个专业,叫做配电系统的自动化,所以我想在座的各位当看到这个题目的时候,可能脑子里面有一些问题要去发问,到底为什么我们在配电这个领域里面要做自动化?在整个配电的运维自动化这个内涵下面,作为我们派诺来讲,你的解决方案是不是好?你的对应产品是什么?包括我们是如何做到的?有没有成功的案例区别分享?以及我们在这个领域里面我们到底做的怎么样?

所以非常高兴我们在接下来的时间里,就这四个话题给各位做一个汇报。好,我们先看第一个,为什么?这张图我想各位都不会陌生,但是当我们进入一个机房里面的时候呢,可能这个图已经没有了,为什么?它面对都是冷冰冰的设备,可能是我们的变压器,可能是低压柜。这张图非常好的把我们目前典型的,在数据中心领域里面配电的五个环节都已经列出来了,中央系统,低压柜等等。我想问在座的各位,面对这么一个庞杂的系统,如果出现了一个故障,如何去快速定位?当我们的事件发生故障的时候,如何在规定的时间内确保通电?我们怎么办?我们怎么办?

所以这就是我们要谈得可靠性的另外一点,叫动态可靠性,千万不要以为我们图纸上画了这些设备,千万不要以为我们在现场已经买了最好的设备,我们碰到问题的时候就能解决它,是不可以的,是NO的。所以这就是我们谈可靠性的另外一方面,叫动态可靠性,如何在发生故障情况下,能够让我们的人员迅速去对故障进行定位,同时能够迅速对我们操作的设备正常去操作。我想当我们去谈这些问题的时候,有些人脑袋已经大了,为什么?因为现在不要说我们配置这种这么多的,哪怕你再多的人,他当时的经验,基于当时对故障的这种判断,应急情况下的处理,我想他的能力是不够的。

好,那我们再往下走。我们再来看两张图,上午我去展示这个的时候,很多人说你这个数据是从哪来的?我可以明确的告诉大家,这个数据我是从2016年UPS杂志的一个文章里面弄来的,不是为了让大家认识我们这个问题去做的?这是我引用的一篇文章的数据。

好,这个数据呢,有两个纬度,大概它把这个设备进行罗列,横坐标是指它的故障率我不知道能看清楚?它故障率18%是最高的,接下来是14%、10%,18%在哪一块呢?在我们的低压柜里。其他的在整个所有50多个设备里面,机房50多个常用设备里面,它的使故障率是排在前10位的,可见我们所信赖的这些设备它发生故障率是最高的。即使我们没有发现故障率,但是当我们需要去维护的时候,也是导致我们中断最重要的原因。

我们再看几个数据,对于我们适电来讲,我们可以去土加负载量。当你去做整个油机切换的时候,你是不能满载去做的,这是我们要去做的,这是我们一定要对在运营的负载机的节能过程,要靠人力去完成。人怎么去完成呢?对于我们可能有几个配电室,有几个不同的,处在不同的地方的这种设备,要在15分钟内按照这个操作,并且这里面还有其他的叠加,要按照这个动作。

第三个我们涉及到中保系统,甚至涉及到传统的电力监测系统,这些设备如何去工作?并且当我们碰到一个故障的时候,它可能会发生连锁的反应,如何有针对的预案去处理。我们在数据中心里面,我们大概有10多我种预案去对应,所以我们今天在这里谈信息化,不只是我们IT信息化,不只是我们操作系统信息化,我们基础设施运维也需要信息化,这就是我们今天重点强调的。

所以呢,整个运维这里面,特别电的运维里面,我们就解决三个问题,第一个运维团队如何去避免它人为的失误,如果帮助他在操作中去完成操作?包括如何有一套系统去自动学习,对整个故障源进行分析。同时我们搞整个标准化的操作,包括我们这么多系统的联动,还有我们故障的预案。

好,我们看一下这个场景的回顾。这个就是我们当正常的一路10KV市电失电的时候,正常的时候是失电的,爱情用黑的来表示,这边是正常的。这时候应该怎么办呢?这时候我们会得到一个信号,会得到一个电流为零,电压为零的一个信号。但是大家知道在很多时候,很快还会来电,这个时候我们会做一个延时,去判断到底这个电是不是真的是失去的?是不是真的断电了?如果在规定的延时之后,这时候如果还是没有电的时候,我们就需要去把这个开关断掉,大家看一下这个图的对比是不一样的,刚才这个开关是实心的,现在这个开关是断开的,这个都是靠我们这套系统去做。如果没有这套系统你靠人去做也可以。

我们再往下走,我们刚才谈到这种对油机的突加负载是有要求的,所以我们对负载一一的断开,这时候我们可以按照这个开关,上面已经断开了。第四步怎么操作呢?我们先把母联开关合上,再往下走,这时候我们再逐渐把这一侧的负载加上去。这个只是我们一个模拟场景之一,我们再看另外一种情况,还是我们把这个开关断掉,这是我们试图去合这个开关,这个母联开关,如果这个开关有问题,这时候怎么办?这时候我们有可能需要通过低压的这种母联来去负载。这个时候要把这个开关断掉,再把这个开关连上,这是我们举了一个非常常用的场景,但是我们在现场不只这个场景。

我们再看另外一个场景,场景3,这是两路系统都断电。刚才谈到它不能是满载启动的,一定是对我们负载进行一个减载的过程,如果用了我们这套系统,也是靠系统自动完成的,如果没有这套系统,要靠人去把这套开关断开。这个时候大家可以看到,这时候油机已经起来的,都有电了,这个开关也需要人去合,如果有系统,可以靠系统合上去。这时候把这一侧总的开关也去通过这种自动合的方式,把它合上。这时候把我们刚才减少的负载再逐一加上去。

刚才只是模拟的几个场景,当我们面对配电系统的话,会面临很多故障,我们会根据所有可能产生的故障做一个疏理,把这些故障的场景一一对应,最后形成这么一套逻辑。这样的话就会减少我们人的压力,包括误判、误操作。这个是我们在现场实际应用的图片,这是我们在现场增加的控制柜,包括控制柜元件的布置,和器件的安装。

我用了这套系统,你这套系统的可靠性有多少?我想当我们在做很多项目的时候,客户也会问我们这个问题,我是我们有四部曲,包括我们自己场景验证,包括逻辑上的验证,出厂的话,我们会根据客户的应用自己搭一个系统,还要在现场验收,现场会模拟各种的故障,这个基本上有四部曲来保证。

那我们来看看我们几个案例,到底我们是怎么做到的?这个是我们去年阿里在千岛湖里面,大家知道千岛湖这个项目特别有意义,其实在系统里面,我觉得它们最大的样本是用了我们整个配电系统化的设备。这是我们现场拍的图,它包括对这大概两公里以外的这种远端的这种中压的控制也是通过我们这个系统来实现的。它总共规划大概18台两千千瓦的油机,我们现在做的是12台,接下来可能有第二期的工程。这里面也体现我们系统的灵活度,可以根据用户的项目分业实施。这是它整个的展示大屏,这是我们当时在做调试过程中的现场照片。因为它们一共有三套系统,这个是他们整个现场的单线图。

这张图对我们阿里千岛湖整个运维的过程有一个实时的在线现时,就是你现在出现什么样的故障?我们现在做到哪一步?我们这边都会有显示。大家看到这个红色的状态提示,它完全做到了整个的故障操作可视化的这种,自动化的一个流程。同时还能够往下走,这个是绿色的表示已完成的,现在已经到第8步了或者第9步了,当然这里面可以人为的去干预中断它,都可以。

这个是我们目前国内第一套的低压油机的控制,这个也是阿里的一个客户,是上海的。这个是国内目前唯一的一个低压油机和低压配电系统的控制。这个是它们整个现场的结构图,包括也是我们操作界面,包括实时报警的信号。这个就是我们在阿里他们最后验收时候的图片,这张图是我们,大概是本周三刚刚拍到的,就是华润银行在深圳有个10万平米的机房,他们是请了中国工商银行上海分行的一些专家去做的验收,包括华润万家,包括华润集团他们使用的,它也是分两批建设。第一批大概是1800千瓦的油机。

当然了,包括我们在中石油,包括我们的电信,中国电信都有非常好的案例,从目前已经实施的运营效果来看,都已经非常良好,有机会邀请在座的专家去参观探讨。其实在整个业务来讲,包括在运营商,包括在BAT,包括在整个银行体系里面都是有大量的案例在里面。

最后我们看看这些项目实施的一个效果,这里面我们想列几个数据,这个阿里的,大概我们当它两路失电怎么操作?最后的时间,大家想象大概多少秒?多少分钟?大家有没有概念?完成整个这套操作,这套控制,如果用人的话,可能要半个小时或者一个小时,但是用我们这套系统,我们最终验收的数据是185秒,但是这个数据也是阿里他们要求的,也是我们最终实现的一个数据,185秒。你想想靠人对讲机去,1号开关,几号开关怎么怎么样,我估计20分钟就过去了。这个是万达的云基地,这个整个做下来,我们大概是220秒。这是华润的,刚刚调试完,大概是200秒。

我们刚才给各位去分享的就是我们在整个数据中心,我们整个运维自动化里面,特别电里面的方案。我们再回顾一下我们在数据中心里面,我们所能够提供的服务,大概是这么四层的架构,最终最上面可能其是还是为企业战略规划做了一个数据的运营分析的大数据平台。这个平台和市面上的平台不大一样的。再往下我们谈到了自动化运维,今天我们谈到了电的方案。第三个是垂直化的系统。还有一个系统是软件一体化,我们在底层里面包括数据的采集,包括设备也是由我们来提供的。

这就是我今天给各位分享的整体的解决方案,特别是在配电的运维自动化的方面我们做的一些努力,非常感谢大家!谢谢!

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-07-19 10:05:00
国内资讯 IDC预测:2021年100 GbE将会成为数据中心主流交换机!
根据研究公司IDC数据显示,自2000年代中期首次亮相以来,今年10G以太网交换机将首次损失市场份额,这是因为服务提供商和超大规模客户逐渐开始部署更快的带宽40G和100 G交换 <详情>
2017-07-19 09:52:52
机房建设 变频离心冷水机组在数据中心的应用优势
数据中心建设规模日益增大,采用大型的制冷解决方案,系统虽然复杂,但是能效高、节能效果明显,日益成为主流。 <详情>
2017-07-18 17:14:00
国际资讯 卢森堡政府:不管费多大劲都要留住谷歌!
近日,卢森堡政府在当地广播FM100.7上发布的一份报告称:卢森堡政府已经重新找到了一块土地供Google建设数据中心。 <详情>
2017-07-18 16:06:13
国内资讯 苹果数据中心落地贵州 是向“新规”妥协?
日前,苹果公司与贵州省政府签订了《贵州省人民政府苹果公司iCloud战略合作框架协议》,苹果方面宣布将花费10亿美元在贵安新区建设iCloud数据中心,这是苹果公司继丹麦之后 <详情>
2017-07-18 15:56:19
运维管理 你的公司需要一个全闪存数据中心
在早期,闪存的价格很高,而且驱动器在几年内就会耗损。现在,驱动器的价格要低得多,而且耗损的问题实际上已经不再像开始一样严重。因此,每一个公司都该有一个全闪存数据 <详情>