2019年12月19日,第十四届中国IDC产业年度大典(IDCC2019数据中心技术论坛在北京国家会议中心举行。IDCC2019作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。 阿里巴巴技术专家任华华在数据中心技术论坛上作了题为《IDC液冷化-正在发生的未来》的演讲。

图片1

阿里巴巴技术专家 任华华

任华华:大家好!今天为大家分享的主题是《IDC液冷化-正在发生的未来》,所谓的“正在发生”,大家或许已经感受到了,2019年IDC业界的高频词“AI”、“5G”、“上云”中多了一个基础设施的词汇那就是“液冷”,ODCC甚至发布了一本业界畅销书《液冷革命》。为什么一项冷却技术会变成IDC业界的热点呢?让我们从政策、行业、IT设备以及成本四个维度做一下分析。

政策层面,刚才李洁博士也讲到,2018到2019年度IDC相关政策密集发布,2018年9月北京市政府发布新增产业的禁止和限制目录,全市只允许建设PUE值在1.4以下的云数据中心;2019年1月上海市经信委发布了指导意见,规定新建互联网数据中心的PUE值严格控制在1.3以下,改建互联网数据中心的PUE值严格控制在1.4以下;2019年4月深圳市发改委发布通知,对于PUE值低于1.25的数据中心新增能源消费量可给予实际替代量40%以上的支持;2019年工信部与国家能源局出台指导意见,引导大型和超大型数据中心的PUE值不得高于1.4。面对国家、地方、行业不断出台的越来越严苛的节能要求,数据中心降低PUE已经成为合规的必要条件。

从行业的角度, IDC中国曾发布2018~2023年中国大数据市场规模预测,可以看到中国大数据市场以每年约23%的增速持续增长中,实际上大数据的应用离不开数据中心,企业上云也离不开数据中心,那么数据中心市场规模的增长是多少呢?智研咨询发布了中国IDC市场的规模预测,可以看到2018到2020年间 IDC市场规模虽然增速放缓,但仍维持了25%以上的年持续增长率。

从机型的角度,来自IDC中国的一份报告显示,2019年第二季度,中国X86服务器市场的出货量同比下降了14.6%,市场规模同比下降了9.4%,云服务提供商和超大规模客户的采购增长放缓,然而多节点服务器实现了逆势增长,2019年Q2出货量同比增长了33%;引人关注的还有GPU、FPGA和ASIC等AI服务器,有报告显示全球AI基础设施的市场规模在2023年可能达到229亿美元。在算力与AI驱动下,大家从左边的图片可以看出,无论是CPU还是GPU,设计功耗值都在不断提高,进而导致单机柜功耗持续增长,右下角的图片也可以看到单机柜功耗的增长趋势,2015到2019年典型机柜的功率已经从约12千瓦上升到15千瓦左右,高功耗机柜的功率也从32千瓦上升到 39千瓦左右。

成本的角度,左边这张图是某IDC全生命周期的TCO分布,总电费占比约65%,初投资和运行电费等分摊到每一年,我们也可以从右下角的图片看到能源电费的占比是大的,有统计显示,数据中心的总耗电量已经占到了全球用电量的2%。

从以上的这些分析,我们可以感到产业发展的内在的矛盾,一边是日益增长的算力需求,另一边是一线城市的土地、电力资源紧张,一边是单机柜的功率密度快速增长,另一边是PUE要求越来越苛刻,一边是IDC与云服务的规模越来越大,另一边是运营电费成本居高不下;IDC行业呼唤更加节能的、集约的、高效的、普惠的解决方案。

实际上每一个IDC的PUE和运营成本都与气象区和冷却解决方案强相关。让我们通过这张图片来回顾一下数据中心的能源转换过程,数据中心本质是电力转换为算力、算力转换为IT服务的载体,电力转化为算力是非常重要的一环,衡量的指标就是业界比较流行的概念PUE。在电气架构相同的情况下,IDC的PUE和运行成本是由气象区和冷却解决方案决定的。举个例子,这张图是主流风冷IDC的冷却解决方案,主要组成元素有风冷服务器、封闭冷通道,离心式冷水机组、水侧的节能器、房间级空调,18度的供水温度,27度的送风温度,这样的冷却解决方案在全国四大典型气象区的能耗情况是什么样子的呢?我们可以看一下这张图,在以深圳为代表的华南气象区,IT能耗占总能耗的71.4%,冷却能耗占到25%,在以上海为代表的华东气象区,IT能耗占74%,冷却能耗占22%,在以北京为代表的寒冷气象区,IT能耗占77%,冷却能耗占19%,在以张北为代表的严寒气象区,IT能耗占80%,冷却能耗占16%。

在相同的气象区采用不同的冷却解决方案,PUE的差别又是什么样子的呢?IDC行业主流的冷却解决方案大概列举几种,有风冷直膨空调、风冷冷水机组搭配干冷器与房间级的空调、水冷冷水机组搭配板换冷塔与房间级空调、水冷冷水机组搭配板换冷塔与水冷背板,在全国四大典型气象区的PUE列在这张表格里。

如果要比较风冷IDC主流的冷却解决方案与液冷解决方案的能效,第一个红色圈标注的是风冷IDC的冷却解决方案在张北、北京、上海、深圳的PUE分别约为1.25、1.30、1.35、1.39,而板换与冷塔搭配单相浸没液冷在张北和北京可以做到1.09、在上海和深圳约为1.1,与风冷IDC不同的是,采用浸没液冷,PUE值几乎不随气象区的变化而大幅度波动。

每个IDC的风冷解决方案与单机柜的热密度也是强相关的,从图片中可以看出,随着单机柜功耗的增长,冷却方式从冷热通道隔离、封闭冷通道、顶置盘管冷却、机柜循环冷却、热风抽取冷却、行级内部制冷、背板热交换逐步过渡到CPU板冷与直接浸没式液冷。经常有工程师一起讨论,为什么不采用板冷呢?这里把板冷和浸没液冷的各个指标放在一张表格上,大家可以看到浸没液冷在散热性能、能效、可靠性、噪声以及运行维护成本方面占优,大家如果在这两个冷却方式的比较和选择上有什么疑问,线下可以跟我们的工程师多做交流。

虽然“液冷”在2019年才成为业界的热点,但是阿里巴巴的液冷实践从2015年就开始了,并在2018年的7月上线了互联网行业第一个浸没液冷的生产集群,规模大概2000台服务器,位于张北,这张PPT上可以看到液冷集群的图片。截至目前集群已经运行了大概一年半,节能效果怎么样呢?从线上的监控系统拉取了数据,全年平均PUE值1.09,最低的时候1.07,如果单纯比较PUE,浸没液冷的能效比同气象区的风冷提升了12.8%,大家也知道,采用了浸没液冷,IT功耗值是纯算力,而风冷场景下IT功耗包含服务器的风扇,那么基于纯算力的比较,能效可提升21.5%。

在项目研发阶段,工程师们提出了问题,电子器件浸泡在液体中可靠性究竟如何?过程中研发工程师查阅了很多资料,一项美国空军的电子研究项目曾研究过电子器件失效的影响因素,与温度相关的占比55%,湿度相关的占19%,振动相关的占20%,粉尘相关的占6%。这里是现实中某数据中心IT设备的故障率比例,可以看到硬盘的故障率占比是高的,占比71%左右,而硬盘的年故障率与温度强相关。可以预期液冷场景下,IT设备放置在密闭的容器里,消除了温度、湿度、振动、灰尘对电子器件的影响,故障率必然有所下降。线上的监控数据数据表明,在一年半的时间里,硬盘的故障率下降了50%左右,可靠性符合预期。

液冷IDC同比风冷IDC,由于消除了风扇,噪声从95dB降低至50dB,大家如果进到液冷的数据中心会感到非常安静,不像在风冷机房里非得要大声说话才能听得到,因为风扇实在是太吵了。

液冷能为IDC带来更低的PUE、更高的可靠性、更好的舒适度,但是液冷IDC在设计与交付时也有许多与风冷IDC不同的地方,这里简单为大家介绍一下。液冷,首要的自然是液体的选择,可选的液体类型通常有电子氟化液、矿物油、白油、植物油、硅油等,这些液体在传热效率、电绝缘特性、化学稳定性、材料兼容性、可燃性、成本等方面的指标各有差异,大家可以根据自身的业务类型、可用性要求、机型热密度选择适合自己的液体。

液冷,第二重要的就是冷却系统了,由于液体代替了空气,具有更高的散热效率,不再需要风冷场景下的大型压缩式制冷设备,也就是说在液冷的数据中心里,不再需要大容量的制冷机,也不再需要末端空调,甚至不再需要服务器风扇,液冷不制冷,只是冷量的搬运工。液冷IDC的PUE能够降低很大原因是节省了压缩机的功耗和风扇的功耗。

由于电子器件浸泡在液体里,液体不断地循环散热,那么必须考虑液体与浸泡器件以及循环管路中所有材料的兼容性。举两个例子,大家可以看到左下角这里,PSU某组件浸泡在液体中质量下降了,什么原因导致的呢?原因是PVC中的塑化剂溶解于液体中,解决方案是用PTFE或其他兼容性良好的材料替代PVC。某继电器浸泡在液体中质量上升了,原因是液体漏入装置,说明该继电器的密封太差,解决方案是更换密封良好的继电器。当然了,液体循环系统中所有的线材、管件、密封件、阀门的密封圈、PSU等都需要经过液体的兼容性测试。

除此之外,液冷机柜为了减少液体的损耗量,还需要针对所有线缆进出容器的位置做密封处理,密封后液体的损耗降低到小于1%。大家从这些布线的图片中也可以发现液冷场景下的综合布线天然的标准化,线缆的管理也更加科学合理。

液冷IDC的机柜是卧式的,IT设备浸泡在液体中,如何进行维护呢?这也是一个经常被问到的问题,阿里巴巴的最佳实践是针对液冷场景开发适宜的机械臂,来帮助运维工程师起吊设备与日常维护,也开发了补液、抽取液体的移动车,以方便日常运维。

液冷IDC由于取消了大型冷机,全年冷却塔供冷,监控系统不需要在自然冷却、部分自然冷却和完全电制冷三种模式之间做复杂的切换,只需要管控冷却水系统与液体循环系统,从而大大简化了运营监控系统。

简单总结一下液冷将会给IDC交付带来的变化,非常明显的一点是风冷IDC与液冷IDC将长期并存,液冷IDC的比例将逐步扩大。有了液冷,IDC的PUE不再随着气象区的变化而大幅度波动,选址不必为了PUE与运营成本而优选寒冷气象区,完全可以根据业务需要进行选址。IDC的某些设计指标也会有所调整,例如液冷区的楼板承重按1.3吨/平方米设计,宜做降板处理,利于敷设管道与线缆。液冷IDC不需要大型冷机,可以轻量化冷站与制冷设施,虽然网络间与电气房间仍然需要制冷,但是整体的交付容易模块化与分期,交付周期缩短。液冷场景下,数据中心验证测试的脚本、验收流程、运营习惯都会作相应调整。

液冷除了给单体的数据中心楼带来变化,也将给IDC产业带来一些变化,前面讲到的政策已经提示了资源流速“刹车”,短平快的时代结束了,比拼实力的慢深重时代已经开始。风冷和液冷将会长期并存,液冷的比例将会逐步扩大。有人说5G第一次带来IT与CT的融合,事实上液冷将带来IT设备 Infrastructure与基础设施Facility的深度融合。IDC分工体系处于再设计的拐点,由于大量冷却液的应用,液体供应商将成为IDC行业的重要参与者。大容量冷机在IDC产业的份额将会逐步减少,但是由于电气房间和网络设备区仍然需要制冷,小型冷源仍然会有增长空间。液冷IDC的整体解决方案,实际上对服务器、交换机以及数据中心都进行了部分重构,具备端到端全链条技术研发与支撑的公司通常是互联网巨头和大客户,可想而知,互联网巨头和大客户仍将是产业的主导者,伴随着云计算基础设施的规模越来越大,产业链的垂直整合将成为可能。

那么第三方的IDC供应商在面临这样的产业变革时应该做出哪些调整呢?在新建和改建厂房为IDC时,设计方案尽量地兼容风冷与液冷,例如楼板做降板处理,承重适当留出富裕量。在新建IDC园区时,可以选择适当比例的楼宇兼容液冷。如果不确定自己的客户究竟会选择风冷还是液冷,那么可以在UPS或者高压直流之后的IT机房区做毛坯房交付,等到确定了客户或者客户选定方案之后,再来做二次深化设计与交付。

大型公共云采用液冷能够实现算力的高度集中和可靠节能,那么边缘计算的场景适合采用液冷吗?刚才李洁博士提到边缘计算模块是由网络定义的,特点是低延时、高带宽,实际上边缘计算还有一个鲜明的特点是交付快,液冷解决方案非常容易产品化、集装箱化以及模块化交付,也同样适配小型边缘计算的应用场景。

回顾阿里巴巴自2015年以来的液冷实践,结合当前的政策、产业、机型的发展趋势,可以预见,液冷IDC终将成为行业潮流的引领者,托起五彩缤纷的IT应用。在这里我们也做一下预告,2020年12月,阿里巴巴即将上线整栋液冷数据中心。

接下来有请大家观看一段液冷集群的视频,结束我今天的分享。谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-07-26 10:28:08
云资讯 阿里巴巴张勇发布股东信:明确消费、云计算和全球化三大战略
过去一个财年,阿里云计算业务继续在中国市场保持领先地位,并实现了阿里云创立 13 年来的首次全年盈利。 <详情>
2020-01-09 09:45:27
国内资讯 【大会资料】IDCC2019演讲资料下载
“中国IDC产业年度大典”是国内数据中心和云计算领域规模大、具影响力的标志性盛会。以“新基建,新产业,新格局”为主题的第十四届中国IDC产业年度大典(IDCC2019)于2019 <详情>
2020-01-02 12:02:00
国内资讯 【IDCC VIP参观团】高层会面,IDC行业内的专属特权等您来享!
在本次活动中,通过IDC企业间的交流分享,更清楚的了解了当前数据中心行业发展的现状,技术的提升,数据中心解决方案的开发等方面的知识,达成了一定的合作意向,为今后IDC <详情>
2020-01-02 09:36:29