“在网络正常的情况下,从北京的清华大学传输4T大小的数据到江苏的国家超级计算无锡中心太湖之光超级计算机需要5天。但若我们把数据都刻成盘,然后用快递寄过去,第2天下午就到无锡了”,中国工程院院士郑纬民如是指出。
这一情况显示,在算力建设过程中,想要更加高效的使用算力,数据中心的互联互通(即运力)必不可少,没有运力的支撑,算力难以发挥其自身作用。此外,我国数据量正快速增长,据预测,到2025年,我国产生的数据量预计将达48.6ZB,成为全球第一,对存储性能的要求正逐步提高,发展存力也成为焦点问题。
以此来看,算力建设并非简单的提升规模,而是算力、运力、存力协同发展。高运力具备高网络数据吞吐能力,是算力和存力充分释放的关键。如果网络丢包、流量不均,那么数据传输效率便会降低,增加计算和存储等待,算力性能也将随之降低;高存力则可通过全局元数据、算子下推、向量检索、缓存加速等数据加速引擎,可缩短数据预处理周期、提高训练集加载效率和推理准确度、减少训练中断,有效提升GPU/NPU利用率。
对于数据中心而言,这将带来新的变革优化。
影响数据中心建设、运维
数据中心主要是进行数据存储、计算、处理等,算力、存力、运力的多少是数据中心规划、建设时必须考量的因素。华为数据存储产品线副总裁庞鑫表示,目前算力相关的政策和建设是比较充分和充裕的,但存力的发展还不均衡。运力同样如此,存力、运力的发展将改变目前的布局,对数据中心建设、运维产生重要影响。
一方面,存力、运力比重的提升,必然会导致数据中心规划设计的革新,改变整体建设格局,IT设备的部署、制冷的应用、光缆等网络设施的铺设等也将受到影响;一方面,数据中心布局的变化将对运维产生重大影响。数据中心的基本要求是安全稳定,为保证这一点,运维需要根据革新进行相对应的调整。
因此,为推动算力、存力、运力的均衡发展,需要数据中心在设计、建设、运维等多方面进行优化升级,需要多方面协同推动,其中,标准担任着先行角色。
中国工程院院士倪光南表示,为促进产业更好的发展,以“行标”或“团标”的方式,发布“算力中心建设指南”,提出“算力”“存力”“运力”的适当比率范围;提出“存力”中采用SSD先进存力的适当比率范围,提出“运力”应该具备的参数指标等要求,避免大力发展算力中心建设中的某些倾向,均衡部署,均衡发展。
目前,相关标准也已经在逐步推出。如国内首个《存储容量计量白皮书》的编撰,其围绕数据存储需求,剖析目前数据存储技术,围绕应用场景数据特点构建真实数据模型,通过先进计量引导行业技术创新,支撑存储行业稳步发展,提高上下游产业标准协同性和配套性,推动建立覆盖全产业链和产品全生命周期的标准群。
影响数据中心产业链上游格局
数据中心具备产业链条长、投资规模大、带动效应强的特征,算力、存力、运力的协同发展是下游产业发展的需要,其变化将影响真个产业链的发展情况,尤其是各类基础设备所在的上游,有望进入新的发展时期。这表现为两个方面,一是对网络设备、存储设备等提出新需求,二是数据中心采购比的变化将产生新的商业机遇。
设备层面,以网络设备为例,运力的发展需要传输网络不仅要满足低时延、高可靠、大带宽、广覆盖等要求,还能解决跨区域、跨层级连接的挑战;同时,需要数据中心网络的对等互联,发展出全新一代统一互联协议,消除数据通信协议转换代价,实现对等高速互联,跨数据中心也需要具备无损网络的能力。
存储设备上同样如此,如当前备受关注的大模型训练,其庞大的数据量对性能指标有更高的要求,数据显示,AI服务器所需的DRAM/NAND分别是常规服务器的8/3倍。这将会催生高性能存储的新品类,也会加速存储在各环节的融合,类似于数据湖存储,而不是像过去预处理、训练、推理、归集各自构建。
商业发展层面,运力、存力的发展将改变数据中心采购比,仅以存储来看,数据量的大规模增长,便会推动存储设备在数据中心采购物料清单中占比的提升。对于相关设备厂商来说,这意味着新的商业机遇,同时,数据中心对于设备的新要求也将推动产品的革新发展,将加快数据中心产业链上游的发展,其中更加符合数据中心需求的厂商有望从中脱颖而出,在业务方面获得突破。
算力建设的重要目的是推动算力供给的提升,提高算力使用的效率,需要算力、运力、存力的协同发展,数据中心的建设、运维及产业链都将因此有所变革,这其中涉及设备的优化、技术的发展及标准的制定等。依此趋势,数据中心将迎来新的发展,算力、运力、存力也将获得更进一步的发展。