国内云计算数据中心领域具规模和影响力的标志性盛会,第十二届中国IDC产业年度大典将于12.21-22日在国家会议中心举行。在昨天的主会场上,多位领导及嘉宾对目前数据中心整体市场进行了分析与点评,在今日的数据中心技术创新分论坛上,多位嘉宾将会对数据中心的技术创新进行分析与解读,让我们共同迎接今天的数据中心技术创新分论坛。

中国IDC产业年度大典作为国内云计算和数据中心领域规模大、具影响力的标志性盛会,阿里巴巴基础设施高级工程师:沈烨烨出席此次会议,并发表《阿里巴巴数据中心供电技术的探索与实践》主题演讲。

微信图片_20171222111530

阿里巴巴基础设施高级工程师:沈烨烨

以下为演讲实录:

从下面四方面来讲。第一方面主要介绍一下阿里数据中心的发展概况,我们出资成立从1999年到现在18年时间,我们整个数据的大概发展情况。第二部分是结果数据中心里用到的数据中心级别的供电方案的想法和工作。第三部分是介绍数据中心内部的不间断供电的方案。第四部分是介绍未来的展望。

我们这个团队是负责阿里巴巴数据中心的建设工作,支持包括像阿里云、淘宝、天猫、支付宝和菜鸟等等业务,整个数据中心核心的电商、数字媒体,包括阿里旅行等等本地化生活的业务BU都由我们团队进行支撑,现在随着阿里云全球化的部署和国内的发展,对于数据中心的需求量日益增长,所以未来阿里巴巴数据中心的体量还会逐渐上升。

公司从1999年成立的时候是从一台PC机来支持整个淘宝的运行,当时是1688,已经是B2B的国际业务,到后来随着公司业务的发展之后,我们需要去租用一些更多的机柜来满足更多的用户,在2011年的时候开始向三大运营商进行定制,因为我觉得中间有一些业务对我们的可靠性逐渐提高,所以我们需要提一些定制化需求,去把我们整体的业务和基础设施的可靠性提高。随着提高到一定阶段之后,在2014年左右的时间,我们最先开始尝试和我们的战略合作伙伴去合建数据中心。比如说2014年我们建设了千岛湖的数据中心,用水冷,在2015年在张北进行了合建的数据中心。随着我们业务的发展,通过我们对数据中心的不断学习,我们觉得应该开始建设自己的数据中心,2017年我们在张北建设自己的数据中心,从土地的购置、选址、设计方案、建设、后期的运维全部由我们来运行。

基于这样的背景之下,更多的数据中心需要有一些新的技术去提高数据中心的可靠性、降低数据中心的TCO.第二部分是介绍我们的供电方案。

数据中心的供电,从可靠性上讲一般会需要一些国家电网的电力支持,除了电力支持之外,我们也会做一些新能源方面的尝试,比如说光伏、风能等等,这两个技术是大家能够比较熟悉的,也是在其他行业的数据中心都有可能被使用。除此之外,我们也尝试去做一些燃气,在浙江我们有一个小的项目尝试去做燃气发电给数据中心供电。往远了想,我们也可能会考虑往核能等等这方面考虑一下。

有了风能、光伏等等,我们再结合一些储能就能够实现智能控制和逻辑,形成一个微电网,或者是分布式供电系统,在这方面我们有尝试去用锂电池去做数据中心的消峰填谷,比如在夜晚充电,早上放电,下午再进行充电,傍晚用电高峰再进行放电,这样技术创新,数据中心的外围供电尝试也在我们的研究范围,并且逐步做一些小的尝试。

这主要是讲我们在千岛湖数据中心里是第一个用光伏太阳能给数据中心供电的方案,传统的光伏太阳能是用,因为光伏太阳能产生的是低压的直流,直流在本地化的离网系统的供电。在千岛湖的数据中心里我们是把240V的高压直流系统跟数据中心进行结合,包括把光伏的电进行DCBC的降压,降压之后和240V的直流进行并网,然后给数据中心供电。并且在张北的数据中心,我们通过从外围的整个电网中取电,电网中一部分电能就是来自于太阳能、风能,这是我们第一次尝试在数据中心去做太阳能。

这一页主要是讲外围数据中心的供电,最早的时候,传统的数据中心是用2N的供电系统,它的可靠性毋庸置疑,但是会有一些两路电使用量,但是在日常的生活中只使用一路,我们在张北自建的数据中心采用了N+1的供电方案,图上是3N+1,过渡到我们自己张北的数据中心,我们用2N+3,在这样一套系统之上,我们为了更高地提高可靠性,还额外加一路试电,做整体的备电。用这样的方式可以减少运营成本,我刚才提的供电是给整个园区来备,整体的外部资源也会占用比较少。

在张北的数据中心中我们也建成了一个全直流的数据中心,大家都知道一般的数据中心都是用2N的UPS,2N的UPS一般是A路、B路两路进行不间断的供电,它的兼容性比较高,在国内互联网BAT都是使用一路市电加一路高压直流,这个一般是讲到服务器层面,但是实际上网络设备层面由于兼容性的问题,大部分还是用UPS的,在我们数据中心建设过程中,一个数据中心又有高压直流,又有UPS,对于整个IT设备的下沉和扩容,会有一些阻碍,因为大家都知道随着数据中心的网络,整个数据中心的周期是十年,服务器的寿命是三到四年,网络架构的迭代也肯定没有数据中心时间长,头三年我可以用UPS加市电直供,后三年我必然会面临网络设备的使用量在整个数据中心的IT量会呈现上升趋势,也就是网络的区域会越来越大,我怎么克服这个问题,通过大量的测试,使得所有的网络设备能够兼容高压直流,这样在张北的时候,我们建成了一个全直流的数据中心,也就是网络设备和服务器都能够放在高压直流系统下。当然这主要是针对IT设备的描述,涉及到水泵、空调等等,还是用UPS.下面是讲不间断供电,刚才提到的是整个数据的供电方案。从数据中心内部,我们有哪些的供电创新的方案呢?这张是不间断供电的发展轨迹,从这张图上可以看到,整个数据中心可以分为整个数据中心级别的,范围缩小可以到房间级别,再小可以到机柜级别,再往下分别到服务器级别、主板级别,针对不同的单位的备电我们有不同的解决方案,在数据中心级别可以用柴油发电机,在房间级别可以用UPS等等,柴油发电机又有中压和低压的说法,现在大家都认为中压的柴油发电机比较适用大型的数据中心的建设,也有国外的,包括一些设计理念的人认为低压的柴油发电机更有优势,因为它可以方便做一个模块化的配置,低压的柴发配UPS等等系统,它整体的可扩容性、灵活性更有优缺点。

到房间是用UPS和高压直流进行配电,UPS的可维护性、可操作性,对于一般的运维人员可能都会有比较繁琐的操作流程,用高压直流在系统级别它的可靠性很高,但是在一些相关的认证,离电器现在还没有特别明确的规定出来,所以它在中国大陆这边发展得比较好。

另外UPS的整体规律可以做到很大,可以多并机,甚至有些大系统可以做到一百多千瓦,一千多千瓦,高压直流一般系统高做到一百到两百千瓦,三百千瓦左右,再大之后它的断路器物选我们都要思考,有一些工作要做。

在机柜级别一般是用机柜的UPS,机柜级别的可维护性会强一些,但是特别依赖智能化的管理,因为我把集中式的一套系统分散到各个机柜中,怎么样去做一个可靠性的管理,非常重要。

服务器级别和IT更加贴近,服务器的迭代时间特别长,我的供电系统、备电系统怎么设计,要特别贴近IT.在主板层面可以用电容,因为现在像CPU,包括一些特定的部件,在某个时间点运行的时候会有一个瞬间的大功率,这时候用电容,能够起到填补那部分功率上升的功能。

随着服务器,英特尔CPU功耗逐渐增加,现在有一个说法是单机柜的功能要逐渐增长,从2010年的时候,机柜的功耗是在十千瓦到二十五千瓦,到2020年的时候,高会到达四十千瓦。会有什么挑战?供电、散热,数据中心最重要的两个专业,散热是否会选用一些新的散热方式,供电层面会有哪些挑战,我在右边举了一个图,可以看这张图,整个数据中心的生命周期十几年,但是IT的生命周期可能只有三到四年,四到五年左右,而且这三到四年里可能会迭代两代的服务器,比如最早的是(英文),到现在(英文),机柜的功耗已经定死,比如说我这里举了一个八千瓦功耗的机柜,如果是350瓦的服务器,它最多能到22台,800瓦的服务器放10台,甚至到GPU的服务器只能放5台,会有什么情况?会有一个基础设施在建设之初完成之后,大量的物理空间,纵向的物理空间会浪费,而IT设备迭代太快了,基础设施很慢,怎么去匹配。我们有考虑这样的一些方面,然后尝试去做一些机柜级别的配电。

空间空出来之后,我怎么去利用我机柜的功耗不能上升,这些空间怎么用,用来做不间断供电。一个数据中心把集中式的供电方案分散到各个机柜之中,把纵向的空间利用,可以减少占地面积。这是我们以前做的一个基于天蝎服务器做的机柜级的UPS,是用18650的锂电池,做成模块化,然后形成一个(英文),放到整个机柜中间去,给整个机柜进行供电八千瓦15分钟,它整体的管理也是和PSU一样,这样做以后形成我整个机柜就形成了一个数据,既有供电又有散热,还有备电,像现在有一些概念叫A元素华数据中心,在远端的时候我这样一个机柜,或者多个机柜就能满足整个数据中心的供电、散热和不间断供电等等。

前面提到的是天蝎机柜的架构,如果是传统的服务器架构该怎么去做?我们尝试去做了两款产品,我们设计架构群,请供应商帮我们生产。第一是高压直流的UPS,它是将原来的传统的高压直流的UPS系统,任何一个电源故障都不会影响整个系统的运行,电池故障可以把它拔下来做一个维护,这样把机柜的物理空间尽量的节省,并且在高压直流系统上面对一些特定的IT设备没法完全兼容高压直流,我们有尝试去做一个AC交流的UPS,交流的UPS特点是高压直流系统是模块化,哪怕很小,它可靠性很高,因为是交流转直流,服务器的电流550瓦可靠性很高,交流的UPS一般是系统越大越可靠,越小反而越不可靠,在这里我们交流的系统会用一个集中式的UPS,再配一个手动维修,这样的方案放在机柜中,实现机柜级的备电,这些产品都在今年张北的创新实验室部署,接下来运行看它整体的收益,整体的运行可靠性怎么样。

刚才提到我们机柜级别的备电,进一步讲。这是微软的LES电源,相信大家在各种新闻媒体渠道都有了解,它是将服务器电池和电源集成在一起,做一个机柜,做一个服务器级别的备电,这样的收益在于什么地方。我前面提到机柜级别的不间断供电,一方面可以改变IT快速功耗和机柜匹配的空间的浪费,第二方面它可以节省UPS供电的基础面积的占用,进一步再做一个极致化,可以做到服务器级别的不间断的供电,但是这样一个方案会改变整个服务器的架构,会要求整个服务器要随着电源尺寸做调整,因为电源的功率,比如现在能做到每立方英尺是五十瓦左右,加了这个以后,它的功率、空间就会比较浪费。大量的国内的服务器一般还是用传统的机架式服务器,没法去做特定化的电源以及服务器机箱的特制,我们有考虑做一个服务器级别的BBU.分两步。第一步做一个服务器级别的单电,因为像EWS会做一个单电源,但是可靠性会下降,针对这种情况我们也认为它这样的单电的架构不可靠,所以我们去做了一些尝试。我把其中一个PSU换成一个Dummy,一个转接板,这样做有什么好处呢?因所有的PSU会有故障率,如果这个PSU发生故障的时候,所有的电能就能通过这个传递上去,两台服务器形成一个供电池,按照现在配置传统的服务器三百瓦,它配合的电源最小是五百五十瓦,服务器的电源运行负载率非常低,效率并没有达到白天的运营效率,如果我把这个Dummy里填满电池又会怎样,会形成一个服务器级别的BBU,形成一个服务器级别的不间断供电,套用上面的架构,两者的(英文)进行互联。用这种方式可以有效地节省整个服务器的供电的UPS不间断供电的占地面积。

用了这种BBU的供电方案,它的工作原理,我们分为四部分。第一,如果市电是正常工作的,我通过服务器自己用自己的PSU,通过外电直接向服务器进行供电,自己管自己。如果说任何一个PSU发生故障之后,通过远端电能,通过(英文)再传送过来形成供电,这时候BBU并不会进行放电。只有当两个PSU发生故障,或者是外围市电发生掉电我们BBU才会进行放电,这样的服务器级别的供电方案会形成一个什么好处?两者之间只有在两个PSU全部坏掉,外电全部断掉的情况才会放电,它的可靠性依然会很高。并且在实际使用过程中,大家知道服务器的功耗并不是绝对均等,它中间会有一些均流的控制,当这个Server功耗比较高,这个比较低,两者就会这边多一些,这边就会少一点等等。

我们做了一个测试,我们拿了两台服务器,一台是625瓦左右,另外一台跑到105瓦。实际拿了一个负载,可以发现两者功耗完全不动等,但是BBU可以进行自我功耗的调配,哪边需要人我就上,哪边缺电我就过去,它就会形成一个电流传送过去,这是BBU-A,BBU-R,当电源突然关机的时候,两个电池电压会进行下降进行放电。前面提到的这个12(英文)前面的线里面就会存在一个电流,这个电流就会往负载重的那侧去靠,并且用了这个电池之后,它的管理也是会非常重要,就是我们会把它同等为PSU的管理,因为我们线上的PSU一旦发生故障之后,我们会有一套运维体系,就会通知厂家过来更换等等,现在我们是把BBU和PSU做成等同的管理体系,当电池发生故障以后也会上报工单,并且它的正常运行做了一部分测试,如果我正常运行,因为它会有一些自损电,大概五天时间它会掉一部分电,再回充上去,我们会有一个电池的管理。

讲了这么多,大家可以想到,在数据中心级别,我们有不同的供电方案,比如说有重压,比如有2N的配电方案,有新能源等等。未来我们从自身的角度会往哪些方面去思考,以及服务器主板级别、服务器电源级别之间我们会有哪些思考,我们来展望一下。

这张图是讲随着时间到2015年有一个推测,这个图可能有点旧,但是基本上有个趋势是对的,随着数据中心的发展,我们的IT费用、制冷费用、散热费用是相当的,也就是说未来更多的数据中心的制冷和供电依然会占很高的比例。同时随着服务器、CPU功耗不断增加,服务器单机柜的功耗有可能增长,我们改变数据中心的配电方案是否要做些调整。

新能源是一个非常让人着迷的行业,不管是数据中心行业,还是汽车行业,还是在各方面的建筑行业,怎么和数据中心形成很好的契合呢?大家都想用,但是怎么去找它的平衡点,它的收益到底在哪儿,我们在什么地方用新能源它的收益会最佳。绿色数据中心是我们研究的方向,也是我们未来发展的方向,如何去实现它,我觉得需要在座的各位和我们一块去努力。

智能化的运营及前面第一位提到AI人工智能,数据中心也是这样,通过人工智能可以优化PUE,通过人工智能可以优化我们数据中心的运维体系,优化我们服务器的上架,资源的调度等等,什么时候怎么样做,我们才能真正地实现一个无人化的运营等等。

还有低功耗的供电技术,服务器的功耗越来越高,PSU的效率是否还需要往上提,是否就不需要PSU,我们能否研制一款高电压的CPU,不是传统的最低电压的,因为电压越高我的损耗越小,是否道路一个平行,我觉得可以是大家未来思考的点。针对这个点我简单再提一下,接下来可能要做的一件事。

第一,低功率负载提升,低负载率PSU效率的提升,大部分的服务器现在的PSU运行在较低功耗,实际上真正服务器运行的效率是怎样的?服务器的运行功耗大部分都在这个区域,因为我们有1+1的备份,有一个电源再加一个电源,任何一个电源坏了之后,余下的电源供整个服务器进行工作,但是效率太低了,怎么办?我们可以尝试做这样的工作。是否可以把低负载率的效率提升,提高到一个比较高的值,但是我在重载的时候让电源效率降低,为什么?因为重载的时候往往是其中一个电源发生故障,这种故障的情况下会维持多长时间?很短,一般马上会有维护人员进行维护。我觉得做这样一条曲线有可能比做钛金值的电源意义更大。

第二,前面提到GPU的服务器,英伟达股价爆涨,因为有人工智能,因为功耗越来越高了,所以48伏的架构是否要重启,我们已经开始在做48伏的服务器。因为像GPU的服务器,我跟英伟达聊,他们的也是有这方面考虑。谢谢各位,这些是我的分享!谢谢!




关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56