10月17日,2018年开放数据峰会(Open Data Center Summit 2018,下文简称ODCC)新技术与测试分论坛在北京国际会议中心举办。ODCC关注数据中心产业的各个方面,从国家政策和法规,到地方制度和项目,从产业全局发展到具体技术落地,从尖端热点技术到传统行业推广,从国内到国际,从宏观到微观,全力推动中国数据中心产业发展。

以下是阿里巴巴高级专家钟扬帆为大家带来的精彩演讲实录《从0到1—阿里巴巴浸没液冷数据中心规模部署实践》。

钟扬帆

谢谢主持人,我是来自阿里巴巴的钟杨帆,接下来跟大家分享的主题是从0到1,阿里巴巴浸没液冷数据中心规模部署实践。

主要分为5个部分,首先看一下背景,随着互联网技术、云计算、物联网的发展,大家都知道已经进入了大数据的时代,从图中我们可以看到,预计到2020,每年将有超过500亿个设备连接到互联网并产生超过44个ZB的数据。增长的数据需要越来越多的计算能力来进行分析和处理。对于承载计算能力的服务器来说会带来挑战。

接下来我们看一下服务器面临的挑战,左边的图是指单芯片CPU和GPU的功耗趋势。早期英特尔的CPU功耗约为120瓦左右,早期英特尔的CPU功耗约为120瓦左右,现在最新一代CooperLake功耗达到240瓦,而最新的HGX2更是达到了400瓦,随着计算能力的提高,单芯片的功耗也在增加,同时从右边的图可以看到服务器的内部,除了单芯片增加以外,内部的密度也在增加,因此,从左下图可以看出单节点服务器功耗每年都在增加。最新一代服务器的功率甚至超过每个节点500 W,我认为这是保守的估计。

所以云计算令计算资源集中化,对服务器的运算能力提出了更高的要求,运算能力提升必然带来热密度的上升,对于承载服务器的数据中心会面临什么样的挑战呢?

第一个是高功率密度机架散热挑战,左边的图ASHRAE组织发布的一个统计预测,到2020年单机架功率密度高会达到每机架40kw,显然这个是偏保守了,然而现在的数据中心大部分是每机架8kw的制冷供电能力,少数也有15千瓦左右,风冷不能满足可接受成本下的散热需求。显然,数据中心需要新的散热方法。

第二个是电力与冷却成本快速增长,左边是Uptime Institute 国际组织发布的调查报告,得出的结论平均的PUE是在1.8到1.9,只有6%以下的受访者声称自己的PUE是小于1.3的,左边的图是美国的劳伦斯伯克利国家实验室对PUE1.9的数据中心进行了能耗分布分析,其中47%是电力与冷却能耗,对我们新的数据中心也是一个相当大的挑战。因此,数据中心的制冷冷却能耗相当大:如何实现降低PUE和优化TCO?这已经成为一个新的挑战

阿里巴巴一直在服务器和新建数据中心思考这些挑战和问题,我们一直在不断探索和实践,这里重点讲一下为什么用浸没液冷进行规模部署。

首先说明一下,什么是浸没液冷?浸没液冷顾名思义,它和传统空气冷却不一样,它是用不导电的液体替代现有的空气冷却中的空气来对IT设备进行散热。站在数据中心的整体冷却架构上对比,浸没液冷对比空气冷却,它完全简化数据中心冷却系统:无冷机 、无末端空调、无服务器风扇。

同时我们自己也摸索探索了对于风冷、冷板和浸没液冷在各个维度的对比,以风冷的为基线这是0, +表示更优,-表示更差,从这个表中,我们可以看到,浸没冷在大多数项目中优于其他,当然世界上也没有是十全十美的解决方案,每个方案都有各自的问题和挑战。

另外,我们也都知道国内外有新建的一些数据中心,采用了新风冷却,但这样的自然冷却是依赖于气象条件的,我们不可能把所有的数据中心建在北方这种低温的环境,有数据中心必须要建在华南,那里气象条件又热又潮,电力价格、土地价格高,空气质量差;如何在这样的气象区获得低PUE与优化的TCO,是数据中心不得不面临的挑战。

接下来我们来比较浸没冷却和空气冷却的能耗,如图所示:例如,按照上述统计业界现有平均PUE为1.9,浸没冷却可以为1.09以下;考虑到服务器中没有风扇。总的来说,可以节省48.4%的功率。除了大幅降低能耗达到降低Opex外,另外无需制冷机组,无需末端空调,服务器无需风扇,还可以降低Capex,总体来说TCO应该优化。多少优化取决于各个公司的TCO模型。

另外除了节能以外,根据专家统计:. 每节约1度电,就相应节约了0.997千克二氧化碳(CO2)的排放,这样可以为社会的环保做出贡献。

在规模部署中需要考虑可靠性, 目前,空冷技术在电子设备中得到广泛应用。在电子产品的使用中,其复杂多样的环境是很难避免的。环境的多样性包括温度、湿度、振动、灰尘等。根据美国空军的统计(如图中所示,美国空军航空电子完整性计划),温度占55%(剩下的因素是灰尘6%、湿度19%、振动20%),从而导致电子设备的故障。浸没液冷是将IT设备完全浸没在电介质流体中,从而完全脱离空气。液体保护IT设备免受恶劣环境的影响。浸没冷却与空气冷却相比,消除了湿度、振动、粉尘对电子设备的破坏因素。虽然目前我们还不能提供令人信服的实测数据。从理论上讲,浸没冷却可以帮助IT设备获得更高的可靠性。同时,我们也在和CPU,HDD等部件厂商联合进行长期可靠性验证测试。

刚刚讲了这么多浸没液冷的优势,但也面临着很多的挑战。阿里巴巴在做浸没液冷也做了很多年,我们也在思考为什么浸没冷却虽然不是很新的技术,但是并没有在数据中心大规模部署。其实我个人分析有两点:第一个原因是空气冷却可以覆盖现有场景,现有的功率密度没有达到非要用浸没液冷才能解决,第二是它有很多挑战,我们现在的浸没液冷方式需要重构数据中心、重构服务器才能达到最优,这真是一个大项目。

阿里巴巴在浸没液冷技术中已有3年多的研究,包括材料相容性、箱体设计、液冷控制监控系统等。不仅仅是IT基础设施,甚至包括很多基础材料科学。

在规模化部署过程中应对挑战去解决,这也是一个相当复杂的过程,我主要分成了三个部分,一个是基础的方面,还有组件级、系统级。

基础级的挑战有三部分:材料兼容性,信号兼容性,散热材料

材料兼容性,服务器、交换机这么多的设备放在液体当中,和液体的兼容性怎么样,这个我们需要对各种液体和材料都要进行验证的实验,液体应与所有材料、各种化学元素相容。包括锡/铝/银/金,不同的塑料,电缆/连接器任何东西。

信号兼容性,因为液体的特性和空气是不一样的,现有的服务器很多都是根据空气特点去设定的,液体介电系数与空气不同,差异越大对信号兼容性影响就越大,所以所有高速信号都要进行测试验证来选择合适的液体材料。

散热材料,在空气冷却系统中,散热器与CPU之间存在导热硅脂。但在液体冷却系统中,需要选择合适的材料来扩展热表面,以提高散热效率。

关于组件级,主要是指我们的CPU、存储、硬盘、内存,还有一些火网卡这些部件放在液体的环境中,是否能够稳定和长期可靠性工作,性能是否会受到影响,这些都需要在液体环境下进行验证。特别是,我们大家都知道,光在液体中是折射的,所以我们必须构建一个合适的光学器件,它需要密封得很好。毫无疑问,服务器在液体环境下的性能、稳定性、能效都是毫无疑问与空气环境不同。

关于系统级,包括服务器架构设计、箱体设计、布线设计、液冷管道布置设计、系统温度和液位容量监控报警系统设计。这真是一件复杂的事情,很难提前完全覆盖。

以箱体密封为例,如何保障焊缝在生产,运输等过程中变不当导致轻微开裂,这是很难用肉眼找到。第二,液体如果没有密闭下是会有挥发,现有常见一些设计采用非密闭设计,容易发生挥发和冷凝问题。我们必须重点考虑箱体设计来解决这些挑战和问题。   

下面讲一下阿里巴巴的实践,这是阿里巴巴在张北的一个自建数据中心,液冷数据中心的容量大概是2M瓦,今年上半年在张北这边完成了规模部署,目前已经运行了五个月左右。

总结一下,1、浸没液冷是解决高功率密度挑战的一种更好的方法。2、阿里巴巴浸没液冷数据中心是互联网行业第一个规模部署,希望和行业伙伴一起合作促进生态发展,一起为整个社会做出贡献,谢谢大家!

谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-07-26 10:28:08
云资讯 阿里巴巴张勇发布股东信:明确消费、云计算和全球化三大战略
过去一个财年,阿里云计算业务继续在中国市场保持领先地位,并实现了阿里云创立 13 年来的首次全年盈利。 <详情>
2018-10-19 09:52:02
国内资讯 2018开放数据中心峰会盛大开幕:二十二项成果精彩亮相 技术创新推动产业升级
10月16-17日,由开放数据中心标准推进委员会(ODCC)主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院和英特尔承办的“2018开放数据中心峰会”在北京 <详情>
2018-10-19 09:33:37
国内资讯 现场直播|3M数据中心首席专家蓝滨:3M浸没冷却技术回顾与展望
浸没冷却就是将计算机的器件浸没到绝缘的液体中,通过液体的相变或运动作用将热量带走。第二,它主要的优点是有很高的制冷效率,所以可以把系统设计得更加紧密,同时起到节 <详情>
2018-10-19 09:26:32
国内资讯 现场直播|GRC绿色革命冷却大中华区总负责人李艾德华:浸没式冷却技术的全球性发展
其实中国很多的数据中心制冷还运行在PUE2.2以上。原因是,我们还是用在50年前的技术。而现在浸没式液冷在市场上以运行有十年的时间了。它的PUE值能达到近1的水平。 <详情>
2018-10-18 09:58:18
国内资讯 现场直播|中国电信云计算研究员吴林泽:基于SDN/NFV的DC网络关键技术研究与实践
驱动层所提供的SDN、VNF的协同可以提供更好的方案,可以使我们极大的利用产业竞争带来红利。整个产品极大的提升了中国电信的运维效率和业务开通速率,以及节省成本。 <详情>