4月26日,由上海市经济和信息化发展研究中心、上海市网络算力协会共同主办的“2024长三角算力基础设施建设论坛”在上海成功举办。论坛汇聚了来自主管部门的领导及权威专家,围绕“算力引领 产业创新”为主题,聚焦计算力、运载力、存储力以及应用赋能做数字经济、实体经济落地实施进行探讨。会上,华为数字能源上海总经理石忆应邀发表主题演讲——“让数字世界坚定运行 共赢智算未来”并受到现场领导及专家的广泛关注和好评。
华为数字能源上海总经理石忆
智能世界加速到来,算力驱动数据中心迎来高速增长
石忆在演讲中提到,随着人工智能进入千行百业,智慧物流、智能制造、智能客服等应用场景相继涌现,目前人工智能正迭代式跨越发展,加快通用人工智能时代的到来。伴随而来的是算力需求的爆发,据有关数据显示,预计2020至2030年这10年间,通用算力将增长10倍,AI算力将增长500倍,预计到2030年,算力基础设施市场空间将达5000亿美元。
面对巨大的市场,智算建设也面临诸多的挑战,在石忆看来,主要面对的挑战有以下4点:
• 更多的资源消耗:根据报告预测2018年至2025年间,GPU功耗将从250W增加至1400W,增大5.5倍,单柜功率将从5KW增加至50KW增长10倍;全国数据中心耗电量将由社会总耗电量的1.6%增长至6%。
• 更快的上线速度:一般大型智算中心建设周期要在12个月,但高速的算力需求增长迫使智算中心的建设周期缩短至6~9个月。
• 更高的运维难度:2018年至2023年间,专业运维人员缺口由38%增大至53%,除智算中心的建设高速增长外,智算中心运维系统的增多也是造成人员缺口的原因之一。
• 更大的安全挑战:以盘古大模型checkpoint 4h为例, 中断一次的损失将超过41万元,一旦宕机超过100万美元,损失比例也由2019年的11%增长至2023年的25%。
智算时代下,绿色跟安全是下一代智算中心的两大特性
石忆看来,下一代智算中心从建设到运维全流程要符合“绿色”与“安全”两大特性。
绿色方面要从“极简”出发,符合供电极简、温控极简、能效自优三个方面。
• 供电极简:依托华为的根技术与架构的极简,通过扑翼式开关,1柜4开关实现部件融合, 10千伏到380伏的供电输出下,从22柜压缩至11柜,节省40%空间;此外,在开启S-ECO的模式下,链路效率最高可达97.8%,实现从简单的物理连接走向融合供电,实现省地、省电。
• 温控极简:华为间接蒸发冷却EHU方案,最大化利用自然风冷却的冷链极简,自研高效风机,提升制冷CLF 35%;华为自研高分子换热芯,相比冷冻水可降低用水量57%,从而实现节能、节水。
• 能效自优:通过一次部署,AI自学习,实时调优,可实现制冷耗电量下降8%~15%,年电费节省约500万(场景模型为 1500柜@北京,8kW/柜,2N,50%负载,改造前运行PUE 电费0.75元/kWh,机柜租金7360元/月,年省电费300-600万CNY)。
通过“极简”的架构,客户可以获得更快的建设速度,满足快速上线的需求,在智算时代的大背景下,快人一步,抢得市场先机。
而在安全方面,则要从主动安全、运维安全、架构安全三个层面,全方位构筑数据中心基础设施安全防线。
• 主动安全:通过AI的预测性算法,变“被动告警”为“主动AI预测性维护”(如风扇及电容寿命预测,铜排温度检测,提升可靠性),极大降低故障率,防患于未然。同时借助AI的能力,一旦发生故障,将传统的人工响应改为自动响应,做到1分钟发现,3分钟分析,5分钟恢复,降低故障所造成的影响。
• 架构安全:结合华为在电子电力技术及ICT技术的耕耘,采用模块化架构设计,通过部件级的热插拔,设备级的全冗余,做到系统级99.999%的高可用性。
• 运维安全:在日常运维中充分利用人工智能技术,结合智能传感/IoT/声音识别/图像识别等技术,将传统人工巡检模式向AI远程巡检模式转变,降低对运维人员的专业性要求。
融合数字技术和电力电子技术,共建绿色美好未来
华为数字能源以融合数字技术和电力电子技术,发展清洁能源与能源数字化,推动能源革命,共建绿色美好未来为愿景。将充分发挥世界领先的根技术体系与端到端的研发体系,构筑世界领先、稳健安全的技术生态体系;其次,将发挥数字技术与电力电子技术融合优势,创造行业独特价值;其三,通过全栈式解决方案,融会贯通L1-L3更加高效;其四,通过世界级的市场体系、生态体系、管理体系、企业文化,赋能客户、伙伴以及产业,带来更多的价值。