随着生成式AI的兴起,数据中心正面临前所未有的散热和能耗挑战。近日,曙光数创正式发布《新型绿电融合“风液混冷”智算数据中心解决方案》白皮书(以下简称白皮书),提出了一种创新的“算电融合”+“风液混冷”架构的智算中心解决方案。“风液混冷”是一种结合了传统风冷和液冷技术的散热方案,旨在在保证散热效率的同时,降低部署和运营成本。这一成果,标志着我国在应对人工智能算力需求激增所带来的能源消耗挑战,以及智算中心快速迭代对冷却系统提出更高要求方面,取得了重要进展。
当前,以生成式AI为代表新兴技术的全面爆发,正在加速冲击和重塑以安全稳定为核心理念的数据中心传统基础设施。这种冲击的核心在于,AI应用对算力提出了前所未有的需求,导致数据中心需要部署更高密度的服务器和更强大的计算集群,从而引发了包括能源消耗、散热效率、运营成本等一系列新的挑战。尤其智算中心中的高密度算力与能源消耗需求带来的诸多能源和制冷问题,已经成为行业普遍痛点。近日,曙光数创副总裁兼CTO张鹏博士在接受中国IDC圈采访时表示“该方案(指白皮书)受到了业界广泛关注和认可。解决方案发布以来,我们与多家头部互联网企业进行合作,验证了该方案的有效性。大家不约而同地表现了对这种解决方案的需求”。
显然,在构建面向未来的、绿色高效的智算数据中心时,离不开像曙光数创这种专业合作伙伴的鼎力协同。
智算发展与绿色低碳双重挑战,算力与绿色电力加速融合
生成式人工智能和云计算的使用激增以及对智算中心需求的显著增强,使全球数据中心的耗电量激增。根据国际能源机构的数据,2022年,全球数据中心用电总量为460TWh,而到2026年,这个数字将达到1000TWh,是2022年的两倍多。
显然,智算中心的高能耗特性与全球绿色低碳发展趋势构成突出矛盾:一个典型美国家庭的峰值功率约为10kW,平均功率约为1.214kW。而一个300MW的智算中心园区,其年用电量相当于约20万个家庭的总和。以包含20,840个Nvidia H100 GPU的集群为例,其所需的关键IT功率容量约为25.9MW。考虑到目前全球范围内正在建设的包含10万个H100 GPU乃至千兆瓦级(Gigawatt)规模的超大规模集群,未来算力基础设施的电力需求还将持续攀升,对能源供应和环境可持续性带来严峻挑战。
Source: SemiAnalysis Datacenter Model
因此,如何在满足日益增长的算力需求的同时,实现智算的绿色低碳发展,已成为业界亟待解决的关键问题。而算力与绿色电力的深度融合,正是破题之道。
传统数据中心通常采用高可靠性的电网+UPS+柴发供电架构,但能效和绿色化显著不足。为此,曙光数创通过优化电力传输路径、构建以数据中心为核心的“源网荷储”微电网、以及软硬件协同等策略,缩短能源传输距离、本地化消纳可再生能源、并根据能源可用性动态调整算力负载,从而提高能源利用效率、降低运营成本和碳排放,最终实现算力与绿色电力的深度融合,响应国家“双碳”战略。
为了实现算力与绿色电力的深度融合(即‘算电融合’),白皮书引入了‘源网荷储’协同优化的理念,构建高效、清洁、可靠的能源供应体系。具体而言,‘源’指多元化可再生能源供应,包括购买绿电绿证、发展分布式可再生能源等;‘网’指构建以数据中心为核心的智能微电网,通过AI算法进行精准预测和调度;‘荷’指灵活的用电负荷管理,通过分布式供电、模块化机房设计和智能化制冷系统等方式动态调整计算负载;‘储’指多样化储能技术应用,平滑可再生能源波动,提高电网稳定性。
通过‘源、网、荷、储’协同优化及AI深度应用,数据中心可实现能源高效利用和绿色低碳运营,从而有效支撑智算中心的长期可持续发展。
AI应用爆发持续提升高密度算力需求,液冷成为必然选择
当前,AI持续爆发正对全球算力基础设施更新迭代速度提出了更高要求。以GPT-4为例,该模型参数规模庞大,计算复杂度极高,对底层硬件基础设施提出了严峻挑战。如图所示的GPT-4性能估算,清晰地展现了不同硬件配置下性能的显著差异。
对比H100和GB200等不同硬件配置驱动GPT-4的性能,采用GB200 Scale-Up 64配置的盈利能力是H100 Scale-Up 8配置的6倍。这意味着在相同投入下,新一代算力基础设施能提供更高的算力效率和商业回报。然而,性能提升的背后是更高的芯片集成度和功耗密度,例如GB200的功耗就远高于上一代产品。随着芯片功耗密度的急剧增加,传统风冷散热已无法有效带走如此高的热量,极易导致硬件过热,影响系统稳定性和性能。因此,为了保障高密度算力场景下AI应用的高效稳定运行,高效的液冷技术显然已经成为必然选择。正如知名半导体机构SemiAnalysis在其2024年10月发布的《Datacenter Anatomy Part 1: Electrical Systems》报告中指出:“任何无法提供更高密度液体冷却能力的数据中心,将无法为客户带来显著的性能与总拥有成本(TCO)改进,最终将在生成式AI的竞争中落后。”这充分印证了液冷技术在未来智算中心发展中的战略地位。”
根据 ICTresearch 调研,2023年中国通用数据中心市场上液冷数据中心的渗透率接近 10%,算力数据中心(智算中心)液冷技术渗透率接近 85%,液冷技术在算力数据中心的应用远高于通用数据中心。
近年来,中国液冷数据中心发展迅速,曙光、华为、浪潮、联想和阿里等企业积极探索液冷技术,推动其商业化进程,并吸引了众多上下游产业链厂商的加入。据2024年12月发布的《绿色算力基础设施液冷技术发展研究报告》显示:在算力基础设施(液冷温控设备)(不含 IT 设备)市场上,以曙光数创为代表的公司经过多年的技术积累和沉淀,已经展现出较为明显的技术优势和市场先发优势,占据国内市场的主要市场份额,2023 年公司份额约为 61.3%,领先优势明显。
曙光数创在液冷市场能够取得这一显著领先优势,不仅在于自2011年曙光就提出液冷技术路线并启动相关技术研究,还源于公司始终站在用户视角,从商业模式、市场成本等角度全方位综合考虑中国市场实际情况。新型绿电融合“风液混冷”智算数据中心解决方案正是曙光数创在冷板式液冷市场的一个重要实践。
曙光数创提出的“一体化”解决方案,核心理念是采用一套统一的冷源系统,同时提供液冷和风冷两种散热方式,以适应服务器的不同散热需求。通过一套冷源和共用一次侧管路,实现了风冷和液冷的统一管理和弹性调节,显著降低了设备采购、安装和运维成本,并提高了系统的整体效率。此外,该方案还强调了AI智能管理的重要性,通过统一的平台或系统,对风冷和液冷两套系统进行集中管理和监控,利用AI技术对散热系统进行智能优化,根据实时环境和负载情况动态调整制冷策略,提高能源利用效率。
具体而言,一次侧采用液冷的自然冷却冷塔,室内侧则挂载不同的CDU(冷却液分配单元)和液冷空调。由于智算中心服务器的高液冷比例,大部分热量通过液冷系统带走,少量风冷需求则通过液冷空调进行补充。曙光数创产品部高级总监黄元峰博士在接受中国IDC圈采访时认为,“对智算中心来说,针对不同功耗和散热需求的设备,需要采用不同的冷却方式。风冷和液冷因此成为智算中心不可或缺的两种散热方案,通过优化‘风液比(在数据中心制冷系统中,风冷和液冷所承担的散热比例)',可以达到最佳的散热效果与成本效益"。
一体化风液混冷解决方案的优势:
·高度契合智算中心散热需求:针对以GPU服务器为主的智算中心负载特性进行了优化,最大程度地利用液冷的高效散热能力。
·灵活的风液比调节能力:通过“风液可调”的设计,允许根据实际情况灵活调整末端CDU和空调的比例,避免了因预判失误造成的投资浪费。
·综合成本和灵活性优势显著:从全年运行的整体成本、能源效率和系统灵活性来看,一体化冷源方案具有显著优势,尤其在冬季和过渡季可充分利用自然冷源。
总之,风液混冷一体化解决方案凭借其高效性、灵活性和经济性,是应对智算中心高液冷比例散热需求的理想选择。据张鹏博士介绍,目前曙光数创正在与某互联网企业推进风液混冷的技术示范,现在有两个项目已经完成规划,正在建设中。
成本与性能兼顾,数据中心风液混合模式将长期并存
在数据中心领域,服务器的散热一直是至关重要的问题。随着CPU功耗的不断攀升,传统的风冷散热方式面临着越来越大的挑战。然而,这并不意味着风冷即将退出历史舞台,相反,通过对服务器CPU功耗与散热解决方案关系的可以看出,风冷与液冷将在很长一段时间内并存,形成一种混合模式。
从服务器高度(U)和CPU插槽功耗(W)来看,不同散热方式有其适用范围:
·低功耗(<350W): 通常采用风冷,成本低、结构简单、维护方便,适用于对计算性能要求不高的场景,服务器高度从1U到6U+均可应用。
·中等功耗(350W-1500W): 更适合闭环液冷,随功耗增加,服务器高度通常为2U及以上。
·高功耗(>1500W): 需采用更复杂的开环液冷,服务器通常需要较高机箱空间(6U+)。
液冷散热效率虽高,但成本、结构复杂性及维护难度也相对较高,对于低功耗服务器而言并不经济。即使液冷技术未来发展普及,其成本和复杂性仍高于风冷。不同类型的液冷方案也分别适用于不同功耗范围,体现了散热技术多样性并存的趋势。散热技术的演进提高了散热效率,使风冷和液冷都能应对更高功耗,促进了风液混合模式的长期共存。
2024年12月最新发布的《绿色算力基础设施液冷技术发展研究报告》显示:“风液混布更加符合实际需要。不管是考虑成本与效率,还是能源限制与环境保护,风液混布的设计方案将会是部分数据中心建设或改造时考虑的可持续发展之道。”
白皮书也指出了同样的观点,液冷技术凭借其更高的散热效率,能够有效地解决高密度服务器的散热问题,成为智算数据中心的必然选择。然而,考虑到成本和散热覆盖面积等因素,“风液混冷”将是长期存在的一种模式。在AI服务器中,CPU、AI计算卡、内存等高功耗部件采用液冷技术,而硬盘等其他低功耗部件则继续采用风冷技术,从而在保证散热效率的同时,兼顾了成本和工程可执行性。
总之,智算中心建设与AI技术的发展密不可分,在构建面向未来的、绿色高效的智算数据中心时,快速的市场变化需要强有力的设计运营以及拥有“一体化交付能力”的合作伙伴,以应对增长的功率密度需求和不断变化的技术趋势。
曙光数创凭借在液冷技术领域十余年的深厚积累和工程实践经验,以及其独特的“一体化交付能力”,能够为客户提供从方案设计、产品研发、系统集成到运维服务的全生命周期解决方案,有效应对智算中心建设中的各种挑战,加速AI产业的创新发展。曙光数创发布的《新型绿电融合“风液混冷”智算数据中心解决方案》白皮书,正为数据中心行业的绿色转型和可持续发展提供了新的思路和方向。