2020 OCPChinaday议题4实录：绿色开放数据中心的高效制冷方案_IDC市场情报

11月13日，开放计算中国社区技术峰会（第二届OCP China Day）在北京举行，超过600多名IT工程师和数据中心从业者参加了此次大会，来自Facebook、Intel、微软、浪潮、百度、腾讯、阿里、NVIDIA、诺基亚、中国移动、希捷、燧原科技等开放社区成员参与了峰会，分享了在开放计算技术的最新进展和创新实践。

绿色节能是数据中心长久不变的主题，随着下一代硬件的集中部署，以及数据中心规模的增长，绿色节能的重要性不断凸显。近年来，创新的数据中心节能技术与方案正在不断被发掘，并产生了切实的效果。例如，OpenRack3.0架构下的48V供电和机柜级水冷解决方案，能够帮助数据中心显著提升能效并进一步降低PUE。

本次会议阿里巴巴与英特尔专家将带来数据中心液冷、高能效48V供电等前沿技术方案的深入介绍和实践。绿色开放数据中心的高效制冷方案

绿色开放数据中心的高效制冷方案——钟杨帆，阿里云基础设施服务器研发架构师、龚海峰，英特尔数据中心平台事业部首席工程师高级平台架构师

钟扬帆，阿里云：大家下午好！我是来自阿里云的钟杨帆。接下来跟大家分享的主题，液冷数据中心一体化探索和规模部署实践。分四部分，先看数据中心面临的挑战。先回顾互联网发展的历程，从左边的图可以看到，上世纪60年代也就是最早的互联网大型机的时代，不超过100万结点进行连接。到了80年代差不多有一千万，90年代差不多有一个亿。2000年进入了熟悉的桌面互联网，这里有差不多10亿的设备进行互联。2010年进入熟悉的移动互联网时代，有100多个亿的设备进入互联网连接。最新的IOT时代，不光是手机，还有我们的电脑和家电，所都会连接到了互联网，超过500亿的设备连接到互联网，连接数量成倍的增长。大数据、云计算的快速发展，让世界变的更加互联，人类生活感觉到更加便捷的同时，背后产生越来越多的数据。数据以难以想象的速度快速增长，右边的图就可以看到，国际数据公司的最新统计和预测，全球数据圈会在2018年32ZB增长到2025年的175ZB。数据成倍的增长，将会需要越来越多的计算能力进行运算和处理。

回顾近几十年处理器的发展，摩尔定律逐渐放缓，当摩尔定律放缓以后，想追求更高的计算力，散热和能耗遭遇到挑战。云计算资源集中化，高密度的提升，必然会带来单个服务器和机柜的功率的上升，对支撑服务器稳定运行的数据中心也会有巨大的能耗挑战。另外，数据中心的耗电量占4%左右。低能耗的数据中心需求也是呼之欲出，不仅关系到了人类环境的可持续发展，也直接决定了算力的成本和服务的竞争力。新的政策挑战，上海市最近发布了新建数据中心PUE严格控制在1.3以下。国家对新基建时代的能耗，以及各地政府对能效的要求也越来越严格。对未来大数据，大规模的数据中心的建设会更加严格的控制，我们不得不对挑战进行不断的探索。

我们既要解决高密度的计算问题，又要解决能效的问题，成本更低，可靠性高，这是未来数据中心的挑战，倒逼我们不断的思考和探索未来下一代的数据中心怎样解决挑战。

为什么用液冷？颠覆性的科技不提，我们一直在想突破能耗的大墙。就目前可行的产业方向看，大多数的企业都是从两个大的方向上努力，CPU芯片持续改进，可以增大芯片的面积，增加芯片的尺寸，这需要更大的能耗。随着计算量和数据量的增长，能耗是一个难题。我们常规的冷却是空气冷却，冷却介质就是空气。我们思考液体代替空气这个冷却介质，通过液体对比空气的性质，可以提升能力，这是提高散热效率的关键点。所谓的液冷就是指通过液体，比如说水或者说其它的特殊不导电的液体代替空气，将芯片内存以及CPU等发热部件的热量直接带走，而不通过传统的低效的空气。我们阿里云在面临这些问题的时候，也是在不断的思索，不断的探索和尝试。我们对比风能，以及不同的冷却方式得出的比较架构。现在大规模使用的空气冷却的技术架构，里面还是会使用空气介质作为传导。整体的架构可以看到，浸没液冷代替了空气介质，提高了冷却的效率。从架构上看，这是做了很大的减法，完全排除了能效比较低的冷却设备，比如说风扇和空调。

从液冷支持的比例来看，我们从风扇、硬盘、CPU等等角度看，传统的冷却都是空气将热量带走，少量的部件通过液体带走。如果采用了一种介质或者说采用了一种技术可以完全的替代空气，能够使得热量完全的从液体上带走，这样的冷却效率会大幅度的提升，以及达到一个极致的冷却效果。从2015年开始对比了不同的冷却架构，包括空气冷却，冷板液冷，我们从不同的维度进行总结和对比。从空气冷却到冷板液冷，从各个方面进行对比，我们实践中不同的尝试着验证迭代，我们总结出一些对比可以看到，浸没液冷是数据中心的一个跃迁式的技术创新，具有高可靠、高可用的特点。

未来服务器的数量会越来越多，规模会越来越大，未来的服务器的规模越来越大以后，除了在新的技术以外考虑可靠性的问题，降低失效率。首先，传统的空气冷却的失效率的因素看，主要是温度、振动、粉尘、潮湿。下一步，除了结果能耗和成本的问题，我们要考虑如何解决可靠性，如何去除这些失效的因素，降低大规模部署以后的失效率。在数据中心里，失效高的是硬盘，硬盘里失效，主板和内存这些东西可能分析的大部分都是温度和风扇振动带来的影响，温度的提高对硬盘的失效率的故障也显著增加。未来如何通过温度的适当降低，同时减少振动粉尘和潮湿的因素影响，通过新的技术引入，这样提高数据中心的可靠性和降低失效率，这也是一个很大的帮助。

数据中心基础设施面临的挑战以及实践，为什么利用浸没液冷的分析，我们讲了优点和特点。我们在落地、部署，以及运行的过程中，还有研发的过程中也面临很多的挑战，不断的尝试和研究。规模化的挑战，一项新的技术在规模不大的时候，我们可能不太容易发现问题和所面临的挑战。但一旦规模大了以后，我们要看在实际的应用过程中会出现什么样的问题，怎么解决。上面我们讲了通过实践总结出浸没液冷的技术优势，但在之前很少，基本上没有看到在互联网数据中心大规模进行部署，液冷领域很难看到大规模的部署数据中心的。现在很多的问题没有说非得用液冷解决，这是牵一发而动全身的，面临一些全新的挑战，这是革命性的变化，所以说是一个很大的工程。我们先看在基础设施是否可以达到与风冷同样的可靠性，如果说它的可靠性很差，这是一个很大的问题。介质变了，放在液体中是不是可以长期稳定的工作，液体是不是不导电，很多的全新领域都需要解决。再就是在运维的挑战，因为密度高了以后，它的重量也会更重了，如何维护。我们在基础设施里，完全的重构，把数据中心和服务器融合在一起去考虑，全部整合在一起做重构，以及极简的设计。

最后跟大家分享液冷的实践。我们在张北2018年部署的数据中心，为了降低能耗，实现节能环保的探索。最早2017年建立了互联网行业的服务器集群是在杭州。2018年开启了液冷的商用，包括了计算、存储、网络，全部都实现了浸没液冷的转化。杭州，今年刚刚建设成的一个全球规模大的浸没液冷数据中心，这是全中国首个绿色数据中心。我们对比测算过了，如果相比传统的数据中心，阿里云这一个数据中心每年可以节省至少上千万的电。经过我们长期，规模化的部署2-3年的时间，我们统计了一些数据，高密度通过高效液体冷却可以打破空气冷却瓶颈，在单机柜的功率密度可以提升3倍以上。高可靠，硬盘、内存和CPU进行对比，通过全密闭的浸没实验的技术，可以降低整体的部件失效率达到50%以上。高能效，我们对能效也是不断的追求的指标，通过数据中心IT设备冷却一体化的架构创新设计，根本上去除低能效的部件。除了服务器以外，整体的能耗可以下降40%左右。高可用，自然冷却高度依赖气象条件，很多的数据中心选择了比较冷的地方，靠近北极，就是为了利用当地比较优的自然环境。浸没冷却完全是不再依赖任何的气象条件，可以在高温，高湿，以及在腐蚀性，海边的恶劣的环境中进行运行。大多数的数据中心，里面的噪声很吵，这是风冷数据中心的特点。因为风冷需要风扇，所以会有声音。虽然说进去以后非常吵，令人厌烦，但无可奈何。但进入浸没数据中心以后，你会发现基本上没有声音了，这是非常安静的，对运维人员是比较大的改善。

在液冷数据中心的持续创新之路进行简单的总结。最早的时候，我们从2015年开始探索不同的冷却技术，也是说为了应对未来的高性能，高密度，高能耗的挑战尝试和实践。2016年上线的麒麟1.0项目，2.0在北京冬奥的时候有几千台的服务器，到现在杭州大规模的数据中心上万台的服务器，就是为了应对下一代未来数据中心的挑战，我们不断的探索实践。我们也希望液冷这个新的行业，因为它要革命性的变迁，必须得重塑发展，然后进行推广和扩大。我们在不断的与各个行业组织，不断的持续开放，共享我们的设计理念。

我们抱着开放共赢的心态，希望所有的行业伙伴一起可以参与进来建设整个生态行业，能够助力新基建，帮助数据中心能够达到节能绿色环保。这是我们的联系方式。大家如果有任何问题和建议都可以与我进行讨论。

谢谢！

龚海峰，Intel：大家好，我是来自Intel的龚海峰，我今天分享的内容是从风冷到液冷，英特尔是做芯片的公司，我们对散热技术一直在从事这方面的研究和开发，想借此机会向大家分享我们所做的工作以及经验。

元器件功耗的发展趋势。可能大家都有这样的一个感知，随着技术的发展，我们的消费电子，比如说手机或者说家用电器的功耗是逐年在降低的，体积做的越来越小，密度越来越高。我想数据中心是不是也是这样的趋势？但事实上和我们的想象不一样，数据中心里的整个器件设备的功耗逐年增加。左上角的图显示的就是典型的CPU功耗的发展趋势。过去的十年里，CPU的功耗差不多是翻了一倍，原因不是因为我们的技术越来越差了，而是CPU算力越来越高。一颗CPU集成更多的内核，要有更多的功能，实现更高的性能。为了达到这些目标，芯片的功耗就必然越来越大。除了CPU，服务器里还有别的设备，比如内存。内存其实也是这样的发展趋势，右下角的图表里可以看到内存条的功耗，随着密度的增加功耗也是在增加。服务器的系统里，为了实现更高的内存性能，我们会设计更多的内存控制器，支持更多的内存通道，也要支持更大的内存容量。这样在整个的系统里，内存也会消耗非常大的功耗，发出大量的热量。除了CPU和内存，服务器里还有很多的加速设备，比如说GPU卡，或者说其它的AI芯片，或者说其它的一些芯片。这些芯片和设备其实也是需要很高的性能，也对功耗有非常高的要求。我们传统的标卡大300瓦，现在很多的情况下已经不能满足加速卡的要求，业界开发了OAM，单卡的功率密度可以支持600瓦。这些器件的功率在增加的时候，其实对整个系统的散热带来了非常大的挑战。

整机柜的功耗密度和散热方案的发展趋势。这里引用第三方的研究数据，左上角的图是单机柜的功率密度的发展趋势。我们可以看到在过去的五六年里，单机柜的功率密度有着非常大的增长，五六年以前大多数的数据中心可能的机柜密度都是在8-15千瓦之间。在最近的五六年里，这个单机柜的发展非常快。中间的图表是第三方研究机构的一些用户调查的统计，他们预测到2025年的时候，这种典型机柜的容量40千瓦到80千瓦会成为主流，甚至会有很多100千瓦的超高容量的机柜。左上角的图大家可能已经注意到了，机柜的功率密度的发展趋势和元器件的发展趋势是很吻合的，也都是在最近的五六年时间里有了迅速的增加。也就是说整个机柜或者说数据中心基础设施的发展一定会适应这些元器件对性能的要求，对功耗的要求。这么高的功耗要求，那对散热带来了很大的挑战，需要有更先进的散热技术。右上角的图也是用户调查了一些反馈的统计，他们预测到2025年的时候，数据中心里会有很多种散热方案都会得到广泛的使用。我们看到常见基于空调的风冷或者说自然风冷，这种散热技术会有很大的比例。同时，他们预计风冷+液冷混合的分散方案会成为一个很大的主流，会得到非常广泛的应用。另外，基于冷板的全液冷或者说浸没式的液冷，这种方式会得到大量的应用。基于这样的趋势，英特尔对CPU的路线图，我们产品策略是同时支持风冷的产品，也会大力的发展支持液冷的产品。前面介绍的是大型数据中心的趋势。

我们再看现在这两年非常热的一个技术领域，就是边缘数据中心，边缘数据中心发展非常快。美国的市场分析，它们预计看到了边缘数据中心年化复合增长率达到37%。到2027年的时候，美国市场价值会超过430亿美金，这是非常巨大的市场。因此，这个市场是得到了大量的关注。边缘数据中心和大型数据中心不一样，它的容量相对比较小，只有十几个机柜，不会使用最顶配的元器件。空间非常受限，工作的条件相比大型的数据中心也是完全不一样的，有非常大的变化，比如说温湿度和污染。如果使用风冷，它的运行就会非常的受限。在这样的情况下，浸入式的液冷在边缘数据中心得到了非常大量的关注。现在看到有很多的边缘数据中心开始采用浸入式的液冷，这带来了一个好处，能效高，可靠性高，密度高，不需要再使用风扇了。风冷还是会继续使用，但风冷会看到有很多的限制。表格里呈现的内容就是我们常见的一些服务器的形态，它里面有一些典型的配置，还有就是对机房的要求。一个总的趋势，如果你密度越高，那能够支持的CPU或者说元器件的功耗也就相对越低，对整个数据中心的要求也越高。比如说我们最左边的这列，放4颗CPU，在这样的高密度的系统里，可以支持大的CPU功耗只能到170瓦。我们要降低机箱的密度，1U里放两颗CPU，那这个功耗可以提高，这是非常显而易见的。或者说机箱做的更大一点，做2U的机箱，那也可以支持更高的系统。如果说想支持更高瓦数的CPU，要采用更加先进的散热方案，比如说增强性的技术，使得散热的性能更高。对风冷而言其实是有很多的限制，用户做的就是要在它的密度、性能、效率、可靠性方面找到一个平衡点。

液冷也是在这方面做很多的研究开发工作。前面有的同志已经介绍过了，液冷有冷板式的液冷和浸入式的液冷。分类有两大类，非接触式的液冷，也就是冷板的液冷。根据冷板液冷里液体的工作状态分为单向的液冷和两向的液冷。还有一种就是接触式的液冷，也就是通常说的浸没式的液冷，根据液体的状态分为单向和两向的液冷。英特尔对这四种液冷方式都做产品开发，满足不同客户的需求。

前面介绍很多的风冷和液冷的技术，对用户而言应该如何选择什么样的技术来作为它的产品开发和部署。英特尔有一些建议。首先要考虑产品对业务的性能有怎样的要求，根据业务性能的要求来决定需要支持什么样的元器件。也就是说业务需要什么样的算力，然后决定CPU选择多少的内核，多少频率，什么样的功能。当CPU或者说元器件的型号确定了以后，那就根据它的型号所对应的TDP选择考虑液冷还是风冷。系统里有内存、加速卡，要考虑这些器件的散热是否满足要求。还有考虑机房的基础设施，也就是机柜的功率密度。如果说整个的机柜本身的基础设施还是比较老旧，没有办法支持非常高的功率密度，那其实也可以考虑通过降低机箱的密度，然后继续使用风冷。反过来，如果说业务需要更高的性能，需要更高的密度，那这个时候必然会要求更高的TDP，这个时候液冷是好的选择。我们还需要考虑一些其它的因素，采用风冷的话或者说采用风冷+液冷的混合散热方案，风扇的功耗会占多大的比例？如果整个功率密度上升，机箱的密度上升，那风扇功耗其实也会增加很多。这种增加的风扇的功耗，是否可以接受？如果考虑风冷，要换成不同的散热方案，你的基础设施需要面临非常大的改造。这样的情况下，其实也考虑说是否可以通过优化目前现有的数据中心的一些基础设施，然后继续使用风冷，降低机房的温度。还需要考虑的一些其它的因素，比如说有多少的热量可以由液冷带走，多少可以通过风冷带走，对可靠性的要求，PUE的要求，机房占地面积的要求等等。

通过这些所有的因素，最后要来做一个TCO的评估，看看如果说转到液冷以后，整体应用成本是否可以节省。这些因素最后都是要回答一个问题，哪种方案可以带来更好的性能。对于液冷的话，其实现在业界已经有非常广泛的关注，这是一个非常热的话题。在OCP峰会里，其实今年上半年的OCP峰会也是线上的，这方面有很多的主题演讲，不少是来自于国内的。英特尔也积极的参与。

随着计算存储网络以及各种应用的加速，这种设备的虚拟性能的要求对散热提出了更高的挑战。遇到挑战的同时也有更多的创新机遇。液冷是一个非常有潜力的发展技术，我们期待与大家一起合作。共同创新。

OCP CHINA DAY2020 直播回看：https://zhibo.ifeng.com/video.html?liveid=136937