中国IDC圈讯  12月11日-13日,由中国IDC产业年度大典组委会主办,中国IDC圈、CloudBest承办的以“赋能企业数字化转型”为主题的第十三届中国IDC产业年度大典(简称“IDCC2018”)在北京国家会议中心隆重召开。

13日上午,IDCC2018分论坛,数据中心技术创新论坛正式召开!本次论坛邀请了行业内知名大咖和技术专家为大家带来当今数据中心技术创新内容的分享。

图片1

会上,中国信通院云大所项目经理谢丽娜为我们带来了《数据中心液冷技术和发展分析》的主题演讲,以下为采访实录:

各位专家,各位老师,大家下午好!就像主持人介绍的,数据中心从传统的数据中心变成云数据中心,随着上层应用的丰富,基础设施的设计和架构都会发生变化,液冷就是其中的一项变革。我是来自中国信通院云大所的谢丽娜,我们部门主要是做数据中心产业相关的政府支撑、咨询、测试、认证、评估、培训等相关工作。液冷是我们从2017年开始开展的项目,接下来我主要给大家介绍数据中心液冷技术和发展的一些分析。首先是研究背景,我们为什么要关注这项技术。

随着人工智能、云计算大数据等分布式计算架构的创新和发展,作为信息基础设施的数据中心所要承担的计算量越来越大,它对于计算效率的要求越来越高。计算量和计算效率提高之后,无论是服务器设备还是存储设备功耗都会有显著的提升,一方面就会带来能耗的问题。曾有统计,2016年全国数据中心耗电量超过三峡整年的发电量,这是非常惊人的一个数据。在这个耗电量的背后就是高额的电费的支出,所以我们开始思考空调之外能不能有一种其他的方式也对散热有良好的作用,但是可以大大降低功耗和成本,这是我们液冷技术产生的经济前提。数据中心的制冷设备和供电系统面临着挑战,空调或者风扇跟不上计算效率,今年2018Google的I/O大会,Google发布了TPU3.0,TPU3.0相比TPU2.0,虽然功能没有多大的变化,大家称之为TPU2.5,但是TPU3.0的性能提升了8倍。所以,Google也宣布,他们的数据中心要开始使用液冷技术。这其实也是现在数据中心的一个痛点问题,就是我们的散热效率已经跟不上设备的计算效率,这是我们液冷产生的技术背景。

我们研究液冷技术,其实就是传统的风冷产生了一些不足。如果参观一个机房,大家经常会看到一个大大的风扇在对着服务器和机架吹,这就是在解决局部热点。如果想在短时期内达到降温效果,风扇的转速必须非常高,其中的一些零件会产生大的振动,带来非常大的噪音,这是风扇的问题。然后是空气流量的问题,空气本身的体积或者比热容比液体大非常多,是千倍甚至万倍的级别。要带走同样多的热量需要的空气的体积比液体的体积多很多,所以我们要达到一个良好的散热效果,就需要非常多的气体流动,不停地去换热。这涉及到很多的问题,最基础的数据中心机房地板必须架得非常高,要保证底下有足够多的空气进行换热,这对地板就是一个很大的考验,对整个机房设计方面带来困难。然后就是空气对流换热的系数比较低,它会带来能耗高、能源使用效率低下的问题。对流换热系数是牛顿冷却公式的一个比例系数,这个系数反映了这种介质换热速率的快慢,一般气体换热系数只有液体的几分之一,所以它换热的速率比液体慢很多。这就产生我们刚才说的问题,散热效率比计算效率高很多,散热跟不上计算。

在此基础上,我们产生了液冷技术。看了风冷再看液冷技术有哪些优势和主要的类型。

为什么要用液冷技术?刚刚一直在谈这个问题,随着时间的推移和技术的进步,一些计算机的芯片会越来越高,要处理的计算工作也会越来越复杂。热度负荷在节节攀升,液冷技术并不是说它想出来,而是它正在被整个产业拉出来救火,因为整个的散热已经跟不上上层应用了。

液冷技术的一些优势,首先就是比热容的问题,要换同样多的热量,液体在换热过程中可以保持温度的相对不变,也就是比热容比较大,气体的比热容比较小,可能换一部分热,它的温度立刻就升上去了。另外,液体是可以直接导向IT设备直接带走热量的,空调制冷或者风扇制冷是通过气体间接地接触IT的热负荷,所以液体的散热效率要高很多。它的散热效率一旦提起来之后,就可以允许CPU、GPU这样的芯片或者配件超频工作,可以提高整个IT设备的集成度或密度。第二点就是能够降低能耗,减少支出成本。本身数据中心的电费支出非常高昂,是很多运营人员在维护机房过程中很头疼的一个问题,液冷技术现在在发展初期,可能大家觉得液体、系统这些费用很高昂,但是一旦这个技术落地大家都开始使用,从长远来看,它会比空调方式实惠很多。第三点就是节能环保,可以降低噪音。节能环保就是液体本身对于环境比较友好,既使是没有产生液冷散热技术之前,有很多的厂商或者其他的持有者也会把数据中心尽量往寒冷的地方建,这就是想利用自然冷源。进一步,我们把液冷技术系统引进来,就是更高效通过液体解决散热问题,更能体现现在数据中心建设的绿色、节能、低碳的趋势。整个数据中心液冷技术建完之后,泵是没有空调或者风扇那样振动而造成的噪音的,它整个系统的声音小很多,这也是节能环保的一方面。

整个数据中心的液冷系统其实就是做热交换的液体回路。

(总体液冷系统回路示例图)这是最基本的示例图,大家在实际研究中这些配件都可以更换,但是基本上都会有冷水机组、冷量分配单元、液冷机柜等基本结构。红色和蓝色的管道分别代表的是热水和冷水的交换过程,这样的总体设计基本上是液冷整个的思路或者框架。具体可能会在液冷机柜的部分有一些区别,也就延伸出了三种不同的液冷系统方式。

首先看一下冷板式,冷板式是最早也是现在普及率高的一种方式,其实就是通过在液冷机柜上面配置分水器,连接进水管道和出水管道,和液冷计算节点(要降温的IT负荷)内板的管道连通起来。它的制冷原理是液冷计算节点的液体通过这个管路在机柜上汇集之后,机柜有一进一出两个与外部管路连通的接头,它可以通过这个接头与外部的冷量分配单元CPU相连接,实现整个的二次侧部分的液冷循环,再与外面的一次侧进行交换,主要是通过管道和板路进行换热。它的优势点在于集成度比较高,散热效率比较高效,可以静音节能,最重要的是因为液体并没有直接接触IT设备,所以它的可操作性和市场的成熟度比较高。

第二就是浸没式,一般而言会有单相液冷和相变液冷两种方式。单相是靠物质本身的显热变化(温度变化),相变是靠物质的潜热变化(如沸腾等状态)。浸没式主要的部署方式是采用特定的冷却液作为换热介质,将IT设备直接浸没在冷却液中,通过冷却液的循环带走热量。制冷原理就是通过循环过程中与外部冷源进行交换,直接通过浸没的液体实现的。它的优势点是冷却液和发热设备直接接触,散热效率较高,在这三种模式里,我们一般认为浸没式换热效率高,因为它最直接。一般冷却液的热导率和比热容的都较高,所以在整个的循环过程中,运行的温度变化比较小。可以支持更高功率密度的IT部署,因为你直接浸泡在里面以后,换热的过程和速率是非常高效的,所以我们就可以在IT负荷上做更多的文章,可以把它的计算效率往更高密度提。这几年在高性能计算领域,陆陆续续有厂商都在研制浸没式的系统,所以说它最早在高性能计算里发展开来,目前逐渐在数据中心层面普及。

第三是喷淋式,在市场上暂时见的不是很多。它不同之处在于喷淋的方式,有点像我们每天见到的淋浴器,通过把液体直接喷射在IT设备上实现散热,主要结构包括喷淋式的液冷机柜本身、液冷服务器、冷却液三部分。它的制冷原理是把冷却液直接通过机箱上的喷淋板喷淋到发热器件(计算节点)的表面,然后进行热交换。它也是直接接触,但比浸没稍微温和一点,没有直接泡在里面,是把液体向IT负荷表面喷的一种方式。它的优势点是比较高效、节能、静音,是解决大功耗机柜在IDC机房部署以及降低IT系统制冷费用、提高能效的有效手段。

这三钟就是目前我们在研究领域或者在市场上见的比较多的三种液冷形式。

接下来介绍一下液冷关键技术。

首先冷板式是通过管路和管道进行冷却的,就会有一些防泄露的措施和技术。比如有一些机柜端对于漏水的检测和控制;还有CDU端(冷量分配单元)对于漏水的检测和控制等,我们要时时刻刻在循环系统中监控漏水和控制漏水。还有是冷却液体水质监控技术,因为主要是通过管道进行循环,所以一旦管道被液体腐蚀或者出现结垢等问题,就会造成堵塞或者其他情况出现,会影响散热的效率,所以我们会对水质进行长期的监控,避免出现结垢、微生物生长等,降低系统停机的风险。还有是液冷系统冗余技术,包括CDU冗余设计、室外机组冗余设计、管道冗余设计等。除了以上三点以外,还有管路和管道的快速连接技术,这个技术也是在冷板式中非常常见和关键的技术。

浸没式的关键技术。既然我们要考虑直接把它泡在水里,液体肯定是我们要考虑的第一个问题,所以液体本身的一些性能、安全、对环境的友好性、处置都是需要考虑的。一般而言,我们希望液体是不燃不爆的,低毒、低腐蚀性,无论是对环境还是运维人员本身都要满足这些特性,因为我们要经常接触它。还有就是希望它的击穿电压高,绝缘性好。绝缘性很好理解,IT设备本身可能会有一些静电,液体在其中不能出现导电的情况。还有就是粘度系数低,有良好的流动性,沸点适中。我们需要液体在整个的过程中循环换热,所以它的粘度不要太高。还有是浸没式液冷系统可靠性的设计,会包括几个方面,比如管路要可靠,冷却液的兼容性一定要良好,还有就是主要的一些配件的冗余要自带一些监控的系统,同样要做一些定期的检测和测试。还有精确的制冷以及流场优化设计,会考虑液冷机柜之间的一些均匀配液的设计;液冷机柜内部流道均匀配液设计;高效低热阻散热通道设计。这是从本身的流动和均匀分配液体考虑的。另外是IT设备定制化的设计IT设备可能会进行一些针对于制冷系统的改良,所以需要考虑它的零部件的兼容性问题或者是高温、高功率密度设备定制,以及设备结构定制化的设计。

喷淋式的关键技术,其实这三者之间会有一些共通的地方,比如说对于芯片级的精确喷淋式液冷技术考虑喷淋的模块,就对应于冷板,它作为一种新加上去的模块,要考虑这个器件的布局、功率、热流密度、扩展表面性能等,喷淋模块作为喷淋液冷系统最核心的组件,在这一点上考虑的比较多。另外要考虑冷却液的流量选定了之后,要进行一些开孔设计、数量和位置,因为一旦喷下来,液滴要多少就是由开孔决定,包括开孔的高度、开孔数量,它和这个器件之间一些位置的关系都需要设计好。设计到比较优良的状态,对散热是有更好的帮助。喷淋式的液冷机柜,一般有重力式和压力式两种,重力式是靠泵传输冷却液,不支持部署在刀片服务器上;压力式是进入喷淋过程中,已经给予了它一定的冲量或者其他的压力,它可以在不占用额外空间的情况下对刀片式的服务器进行部署。然后是服务器的改造技术,喷淋模块是直接部署在服务器的上方,所以我们会对原来的服务器进行一些改造。然后是冷却液的设计,要考虑与服务器里面比如CPU、GPU、FPGA等器件的兼容问题。

说了这么多,已经提到了在液冷的过程中需要进行的适配问题。首先就要考虑人员的问题,无论是设计液冷系统或者对它进行改造、维护的人员都需要经过一些培训,因为液冷机房和原来操作空调或者操作风扇是完全不一样的。另外是管路材料的选取,是用合金还是纯金属,怎么样抗腐蚀,怎么抗结垢,包括快速连接等问题都是管路系统需要考虑的。设备移动和清理,我们不能像原来那样风扇不需要就把风扇拿走,没有那么简单,比如说浸没式的系统,可能服务器或者其他的设备是泡在里面的,如何把这个服务器或者设备进行取出?可能就需要吊机的装置或者操作车。对液体的监控,我们在这个过程中,是依靠液体进行散热,所以我们在整个过程中对液体一定要是实时监控,不仅是防泄露,而且还包括流动、喷淋等动作。还要考虑的是硬盘等配件兼容性的问题。另外比较重要的是注排液子系统的问题,关于冷却液,如何充注与排放都是需要思索的。

接下来介绍针对三个不同的系统分别举了三个案例,冷板式是德国莱布尼茨大型的计算中心的SuperMUC水冷系统,它采用的就是温水水冷技术。它的成果也是比较好的,年平均PUE达到1.1,成为绿色高性能计算的行业标杆。

浸没式列举了云渲染数据中心的例子,因为现在动漫、游戏行业都比较火爆,他们渲染这一块的业务增长比较快。因为渲染涉及到的计算量非常大,所以它对数据中心的要求比较高,也会经常用到液冷系统。这个案例就是针对渲染数据中心,部署了浸没式的液冷系统,最终测算的投资回报比较高,一年半就可以回本。

喷淋式举的例子例举的是一个超级图形处理数据中心,这个有好几层,加了一个喷淋模块的形式,把冷却设计在最上面,实现整个建筑的液冷循环。

另外说说我们自己,大家如果对数据中心跟踪比较久的话,应该知道ODCC。这个液冷项目就是ODCC2017年开始启动的,也得到了很多厂商的支持,包括一会儿要演讲的GRC的李总,他们也提供了很多的帮助。在这个过程中,我们希望把客户方、厂商方以及市场上对于液冷技术的需求、研究、思索、成果都汇集在一起,希望能够助推这个行业的发展,这就是我们的冰河项目。

整个ODCC围绕液冷技术开展了很多的工作,出了很多的成果,今年年度峰会我们出台了一系列的液冷规范,包括液冷总体技术要求、液冷技术与应用发展白皮书、系统测试规范,还有冷板式、浸没式、喷淋式分别的技术要求。

我们也围绕这个项目开展了一些测试工作,包括对液冷系统的性能比、老化和稳定性的测试。

希望通过我的介绍,能让大家对液冷这个行业有一点了解,只要能让大家多一点兴趣,那今天演讲的目的就达到了,非常感谢大家!

【中国IDC圈原创 未经授权禁止转载】

相关阅读:

       IDCC2018|数据中心行业风往哪吹?技术创新论坛为行业指路

      第十三届中国IDC产业年度大典完美落幕,为企业数字化转型路上增添新动能

      IDCC2018|中国外运信息标准化办公室副主任宋清波:中国外运主数据管理探索与实践

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-02-21 16:09:00
市场情报 云酷智能荣获2023年度“钱江能源科学技术奖”一等奖!液冷助力IDC能效进一步提升
“钱江能源科学技术奖”作为浙江省能源项目中的最高奖项,该奖项代表浙江省能源类项目的顶级科技实力。 <详情>
2024-01-22 15:25:05
2024-01-19 15:41:34
国际资讯 亚马逊宣布将在五年间在日本投资150亿美元 用于扩建数据中心
此项投资将主要用于扩建该公司在日本的数据中心,并加强其在当地的业务运营。 <详情>
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>