为贯彻落实党的十九大报告中心关于“可持续发展战略”的精神,促进金融云数据中心在能耗、环保及效率等方面的建设运营能力的提升,由开放数据中心委员会(ODCC)主办,中国IDC圈承办的“ODCC金融业数据中心系列规范发布会”于12月7日在北京国宾酒店正式召开,会议发布了《金融业绿色数据中心建设规范》《金融业绿色数据中心分级评估规范》《金融业绿色数据中心运维规范》等四项规范。

ODCC主席、百度系统部副总监张炳华出席了此次会议,并作《AI时代数据中心技术发展趋势》主题演讲。

张炳华

演讲全文如下:

张炳华:大家下午好!感觉是不是有点困了,感觉会场特别热,刚才连水都喝光了。我希望通过我的演讲能够给大家带来一点兴奋,我演讲的题目叫《AI时代的数据中心技术发展趋势》。百度现在也在做金融,换句话说,我是从电信到互联网到金融,大家现在也比较熟“互联网+”,现在是“互联网+金融”,“AI互联网+金融”,在今天这个大会上跟大家做一些分享,我非常的开心。另外特别高兴的是,ODCC这个组织在不断地壮大,以前我们是基于BAT互联网公司和电信运营商这个层面的规范、标准的制定,非常开心地看到今天有新的规范和标准,就是针对于金融数据中心的,我觉得这是一个非常好的开始,我想在未来,在明年,ODCC还会有更多的成果产出,来帮助到大家。

我今天的演讲内容其实不太多,但是我觉得值得大家去听一听,因为这也是我在互联网从业二十年,互联网和数据中心从业十八年的经验积累和思考。

首先我们看一下发展的历程。PC互联网发展了十二年时间,在这十二年时间当中,我觉得中国跟美国、跟世界其他发达国家相比有非常大的差距,这块大家能非常明显地感觉到。在这个时间内,国内的数据中心非常少,那个时候大家在意能不能做出一个数据中心,其实我正好赶上了那个时代,我在专门做数据中心方面的设计,这个时候解决的是什么问题?大家关注的是可用性,有没有,但是还没有谈到下一步的问题,就是好不好。

其实在2012年进入到移动互联网时代,大家也知道手机的应用,APP的应用导致互联网发展的速度非常的快,现在基本上手机上装的各种应用,手机百度、微信、地图、打车软件等等,这些都是我们在移动互联网时代留下的足迹,因此在移动互联网时代,我们数据中心的需求增长非常快,我觉得比PC互联网时代增长的量太多。

从去年开始进入到人工智能时代,去年有两个热点事件,让大家认识到AI.一个比较大的是AlphaGO下棋,我今天早上看了一篇文章,说搞了一个AlphaZero,它可以关注其他的棋,拿过去一学,两三个小时就战胜人类了,这是一个非常大的变化。这个时代数据中心的变化可能跟我们原来不一样了,我觉得它应该解决的是好不好用的问题,这个好不好用,其实随着我们的变化,一方面是通用性,一方面是特别专业的应用。

百度云今年发布了2.0战略,我们可以借这个ABC的战略给大家介绍一下,互联网跟金融结合需要做什么事情。

第一,谈到A,A就是AI、人工智能。大家可以看到,人工智能是火箭,其实大数据就是燃料,去助推它发展。B就是大数据,通过我们的算法能够挖掘到里面很多东西。C就是云计算。这三个在一起产生的价值、影响力远远超过我们自己原来看到的,可以从五个层面来看。

基础层,我们只知道数据中心的基础设施层面,今天大家谈到的规范和标准,以及我们在座的各位可能有大部分人都在从事数据中心的建设、规划、运营,更多是在这个层面的东西,其实我们希望它有更绿色、更高效、成本更低、稳定性更好。

除了这个以外,第二个平台叫智能大数据平台,这叫天算。来自于人算不如天算,基于这个天算的大数据平台是希望我们通过大量的大数据挖掘发现这里面的规律。

第三是天像,智能多媒体平台,可以做图象识别,刷脸吃饭,刷脸过门禁,这些已经很平常了。我们通过爱奇艺的视频剪辑,通过人工智能的方法很快地截取出里面两到三分钟最高潮的部分,大家看到现在短视频,其实有很多技术都是通过人工智能的方式来做。

第四是天工,智能物联网平台,以后智能家居,大家也看得到现在家里渐渐地多智能音响这种应用。

第五是天智,人工智能平台,百度有一个开放平台。

基于这个场景,我们认为云已经到2.0时代,在这个时代当中,我们云化的人工智能对数据中心的需求增长越来越快,其实刚才前面几个演讲者已经做了这方面的描述。

特别要提到的是基于需求驱动的数据中心的技术,架构及服务升级,应该怎么走。我们现在能看到数据中心规模越来越大,原来的机房,五六年前我们做一个两三万台的服务器的机房,我们觉得规模就非常大了,可是在现在看起来,它已经很小了,为什么呢?一个是量增长特别快,二随着规模的应用,大规模的翠存储需要,原来的逻辑单元,一两万就觉得挺好了,现在如果你保有量到几十万、上百万的时候,你就发现一两万很小,因为点太多也不好管。因此在设计架构上,我们可能会去看是不是分区域来做这种REGION,中国分华东、华北、华南、西部,我们的流量分布不均匀,流量不同,导致我们靠近用户去服务的规模就不一样。有了区域的概念,由分散到集中,下一步要干什么?在每个REGION里面,我们要建自己的可用区,两地三中心,就是这种可用区在一个REGION里面有两个,或者三个,每个可用区里面的规模可能是五万到十五万的规模,导致一个REGION有几十万的规模,这样在全国部署起来才是OK的。

除了这个以外我们怎么保证用户的体验,其实现在会讲边缘计算,我们在之前就定义了,我们百度自己定义了一个说法叫XDN,这些XDN的模块是靠近用户的,它是分散到全国各个地方,和用户特别靠近,因此大量的计算,模型的训练是在我集中的REGION里完成了,大量的服务是在XDN里完成的。有了这样的布局,这对我未来业务的发展就有了非常好的弹性。

在密度上,大家都在讲节能,怎么能做到节能?我们的密度是越来越高的,这是毋庸置疑的。我们从最开始的13、16、20、40,这些通通都不够,我们需要做到更高的密度,在这个时候我们希望能耗更低,互联网的很多产品是免费的应用。我们可能跟银行不太一样,银行的服务相对来说附加值比较高一些,互联网的很多服务看似是贴钱在做的,它靠的是流量,做的是流量的生意,因此必须对成本有非常好的控制。基于这个逻辑,我们节能和创新的能力要求非常高。

第三是节能和管理的能力,我们要求性价比好、成本低,但是还不希望它盈利低。真的把业务提交的时候,哪怕一分钟,客户都不干,所以我们对我们的运营要求是非常高的,同时我们的服务器的换代速度非常快,一般说来是三到四年就会更新一代,服务器淘汰掉换新的,新的服务器的架构和原来的都不一样,因此我们的数据中心设计的比较傻大黑粗的机电设备怎么做上一轮的切换,因此我们的矛盾在设计当初就要考虑到,能够保证我的机电设备使用十年到十五年期间,我的服务器都可以带得动。

刚才从架构能力来讲。这里面特别提到从通用计算到异构计算以及到高性能计算的一些变化。大家原来用的就是X86的架构,都是比较通的,比较简单容易理解的,但是在同一个时间段内推出了天蝎主机柜的方法,其实它的逻辑比较简单,就是把原来的通用服务器,或者标准服务器里的电源模块分散全部独立出来,做共享的架构。把一台整机柜服务器当成一台服务器来管,它得到的好处是说我的模块利用率更高了,这样的一个结果,其实在我们整个ODCC推出以后,现在每年已经有一百多亿的规模采购量,对我们来说,对产业的节省是10%.从交付的效率来看,我们现在一天交付一万台服务器,对我们来说很轻松,为什么?引用了整机柜的方法,不像原来一台一台去,效率肯定大幅提升。看到这个我们只规模量上的问题,但是我们还有新的计算,人工智能的计算,深度学习的计算,它用X86的架构是搞不定的,因此我们就会特别流行一个词叫GPU,它现在有非常大的变化,发现它用到人工智能深度学习计算当中,它有天然的优势,我们在四年前,就做了一个语音训练的模型,大概30台GPU的服务器,顶了1000台X86的服务器,速度还提了五到十倍,GPU的功耗比较高,大家看到这张图,这是我们百度自己推出的X-Man2.0的服务器,它是用液冷来做的。

最后一个是XPU,就是GPU加FPGA架构的模式,其实百度在今年也推出了叫AI一体机,就是把计算、存储、异构计算的东西集成到一提机器里,给客户提供软件到硬件服务的一种方式。其实也可以看到,它的XPU的构架用了两个性能,一个是GGPU的通用性,一个是FPGA的效率,在这种变化的情况下,我们数据中心设计上需要有一些改变。

特别是在基础设施这个层面上,可能很多时候,大家心里想的还是UPS,那就从供电开始讲。我们从供电的效率的角度来说,要使它的效率更高,肯定要从离线的模式效率最高。有很多时候不是我们想象的那样有一台UPS坏了,它就分摊到另外一台UPS,可能因为各种原因导致这个系统崩溃,我们在开始做的时候有想到了在电信里用得最多的就是用模块化的方式,因此开始做240个直流系统,因为直流系统跟原有的服务器的兼容性不是特别好,我们用大量的时间在这个行业做这件事情,终于把它做成了,基本上现在市场上卖的服务器,网络设备都可以支持用240直流的供电方式,用这种在线的模式可以使同样的可用的情况下,我在维修的方面,不需要厂家上门服务,我自己可以解决。

我从UPS80%多的效率,到现在工频机91%,我认为效率还是不够的,因此我们做了一个改革,就是基于这种模式之后的一个变化,做离线供电模式,这个事情我最开始在国内第一个大规模应该是在2011年投产的,效率可以从90%提升到95%,但是可用性运行星下来是非常好的,我们想还有5%的能耗怎么把它消除掉,用一个什么样办法呢?用离线供电模式,其实这个模式在五年前就开始做了,现在投产的大概是我们的服务器就可以用百分之百给服务器供电,等它停电的时候再切到电池上去。这个做完以后,我们的效率基本上做到99.9%.这个事看起来有点玄,但是如果说跟天蝎结合起来做这个事其实比较容易,因为我们的模块可以做定制化,基于这种定制化的模块可以改变我们服务器的结构,我们直接在模块里用一个二级管轻松地解决了这个问题,停电以后自动直流供过去,这是非常好的架构,系统效率也非常高,这其实还远远不够。

我们还做了一个事情,做锂电池,因为铅酸电池比较笨、比较重,又有污染,我们其实也做了一个成功的尝试,天蝎整机柜在插到锂电池模块,我们电池也不需要了,以后建设数据中心非常简单,把DI系统做完了就非常简单。在基于这种变化上,我任务从在线到离线的变化,但是可用性并没有下降。

第二个方面要说冷却,冷却要做节能,要做绿色,肯定要做免费。免费冷却能用的就是室外大量的冷空气,或者河里的冷水,或者类似于海水来冷却,其实就是用的自然的冷源,我们有几种方式。一种方式就是直接把新风搞到机房里来,大家都能想到,热了开通风,这带来一个问题,服务器受不了,因为空气污染比较多,服务器经常挂掉,基于这个场景我们也做了大量的研究,这个事情我大概做了六到七年,到现在为止我认为是完全解决了,而且我们也规模应用了。服务器肯定有受污染影响的故障率高的问题,但是通过一个比较简单的手段就可以解决掉,用全新风的方式直接引进来,把粉尘稍微过滤一下可以,而且运行的效率非常高,可以做到1.07,这个跟美国差不多,我们三年前去到美国脸书的数据中心,觉得很不可思议,它有天然的条件,我发现它的窗户上,大概两三个月进一次,稍微有一点灰,但是我们北京的天气要家里一天不擦就跟人家两三个月差不多。但是我就说这个意思,我们这个技术是可以用的,那用新风的风侧冷却是可以运行的,但是对服务器要做处理。

另外是用水侧,我们用七八年的时间,现在我们做到96%的时间不用开冷气,这里面有一个条件,就是把服务器的进风温度提高了,天蝎的服务器可以做到进风温度35度,正常运行一点问题都没有。

第三就是关于控制,我们原来都说靠人工,现在我们提靠人工智能,怎么做到这个东西?开始我觉得挺难的,但是我从做的过程当中,原来我发现在运行的时候,我们的人聪明一点,就是把机房的空调开多少,测一下用电量,在哪个风速转速的情况能耗是最低的,这个大家都能想到,都能做到。后来发面我的监控系统做得特别好,我可以通过机器学习的方法来做,这个做完以后,发现确实很有意思,其实谷歌在两三年前,它们也讲怎么通过人工智能提高运行的效率,我们也在做,看起来效果非常好。但凡动一点思想,用人工智能的方法来去做,可能比人自己要想得更好,而且调解也更少。

第四,我们要减少碳排放,用化石能源、用煤、石油、天然气,做成清洁能源,这是一个趋势,在美国做得更好一些,中国也在尝试做,但是离他们还有比较大的差距。

讲了技术以后还有另外两点必须要给大家分享。第一,建设模式。大家能想到建设模式,就是租用第三方做好的数据中心。第二,租来不满意,因为它不符合我的要求,咱俩去定制合建,这也是模式。第三,自己干。我们认为的建设模式还有两种,我们怎么做到的?

第一种标准化、模块化、定制到预制的模式。我们现场的施工过程,基本上跟家里装修差不多,我认为就是脏乱差,我觉得是有问题的,因此基于这种模型的情况下,我们讲怎么标准化,怎么去预制,在工厂做好直接搬到机房里去装配好就可以了。这个图是我们预制模块,上面是顶式空调,上面是没有风扇的,完全靠天蝎整机柜的服务器风扇,还有热空气上升、冷空气下降的自然对流来形成制冷,把热量带走。基于这样的逻辑,可能大家也看到今天发布的规范当中有一个叫模块化的规范,其实它这个逻辑,我们在同一个时间也产生了,我们基于这种模块的方式,我们先用这种模块拼装起来,它更像乐高积木的搭建形式,我服务器的数量是可以调节的,任意弹性的扩展。

我这里面的组件大概有十几个,省长生产完到现场拼装就可以了,如果我的组件数量提高了,我就提审一下制冷了。我的(英文)的场景跟机柜的尺寸,服务器机柜的尺寸宽度是一模一样的,我一样多加(英文),让功率密度提升之后,如果功率密度降低了,我就拿(英文)拿掉,多上几个机柜,这个弹性是可以解决的。基于这个模块可以解决施工现场脏乱差的环境,就类似于家里装修好了,买来家具就行了。

另外一个方面,如果把电池干掉,用分布式锂电池,我的铅酸电池系统没有了,你也看到UPS和高压值没有了,大家觉得是不是更简单。基于这样的场景,我举个例子,这就是做的锂电池的方式,以后我们施工也很简单,我买服务器就把机柜买来,用多少买多少,我不会考虑到UPS买来,电池买来浪费掉,它一点都不会浪费,但是它效率还会特别高,可以做到99.9%.这一页特别要跟大家讲讲,人工智能怎么赋能。其实数据中心是为人工智能的计算赋能,但是人工智能也能帮数据中心做节能。基于我们看到的逻辑,就是一个算法/策略,我们基于这种深度学习的网络,通过百度开放的人工智能平台,我们可以把各种数据输入进去,把你的参数,室外的温度、湿度,我的服务器功耗,这个时候的负荷率都可以进去,运行模式,开多少台机器,我的IT工作的变化,就是我这块是高峰期,还是晚上的低谷期,以及工作状态都可以放进去,可以算出一个模型来,有了这个模型,我的参数任何的变化,都可以做调整,都可以出来。

举个例子,我可以对环境温度提前三十分钟测一次,我就知道三十分钟之后我们室外温度是多少,我就可以去调解。除了这个以外我们还可以干另外一件事,就是故障的预警。我现在不但要做到故障定位,就说有一个故障来了我就知道它在哪儿,我马上把它处理掉,我还做到,它还没有故障我就要知道它马上要故障了,或者应该要保养了。我可以通过我们的参数去做这种预判,来判断它有可能会发生,那我们这个案子在三四年前做得最好的就是做硬盘的修复,用这个模型算完以后,发现硬盘哪块出问题了,我们可以体现做修复。后来我们移到数据中心,发现效果也是非常好的。

除了这个以外,我们还可以做容量管理,什么意思呢?就是数据中心建完以后,装了一万台服务器。因此我就要想想怎么做,基于我现有的负荷,我现有基础设施的能力,怎么让它匹配得更好,因此我用这个方式来做,就是我原来装一万台,我可以做到一万两千台,增加20%的装机能力,但是我基础设施的投入是一样的,没有做任何变化,因此我的成本、效率都做上来了。

我们现在能够做到,按照这种能效预测,IT设备的联动,或基础设施联动,可以做到整机率96%,是这样的情况。

我经常被问最多的是说有没有机会去阳泉数据中心参观一下,非常抱歉没有让大家看到,但是今天有机会给大家带来一个短片,两分三十秒,让大家看到数据中心的情况。我觉得跟美国最先进的水平差不多,也跟瑞典数据中心差不多,大家可以看看是怎么做到的。

(视频播放)

前面一段是关于业务的应用场景的东西,这是阳泉的数据中心用无人机拍摄的场景。

谢谢大家!我这里要说两句,我特别希望我们在座的各位有机会能够加入到ODCC组织来,我们有很多技术都在ODCC里开放给会员的。如果大家有问题,接下来可以私下来聊,因为时间关系,我就汇报到此,谢谢大家!

【中国IDC圈原创,转载请注明出处】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-12-07 17:19:00
国内资讯 李洁:数据中心的绿色之路
绿色管理是完美PUE的重中之重,对于运维人员的考核,以及日志的管理、运营管理、软件优化都起到很大的作用。 <详情>
2017-12-07 17:03:00
国内资讯 任广明:金融业绿色数据中心运维规范解读
近些年来随着大数据和云计算的发展,银行业数据中心体量越来越大,随着互联网金融的发展,数据中心的内容也越来越大,如何在有限的空间范围内,来支撑更多的业务发展,支撑 <详情>
2017-12-07 16:51:00
国内资讯 朱华:特高等级数据中心的思考
特高等级数据中心的概括:第一,我要让你打不到;第二,我要让你打不尽;第三,我让你打尽了都打不死。 <详情>
2017-12-07 16:24:00
国内资讯 张鹏南:金融业绿色数据中心分级规范解读
绿色评估标准里面五大评估指标:PUE、UPS使用率、空调资源使用率、空间使用率和水资源使用率。 <详情>