引言:2020年2月25日, GSMA宣布华为Atlas 900 AI集群荣获Global Mobile Awards 2020 (GLOMO奖项)未来技术大奖。该GLOMO奖项未来技术大奖由GSMA组织方首次设定,旨在表彰超越时代、重塑世界的技术,标志着业界对华为在人工智能领域技术创新的高度肯定,它的份量和意义不言而喻,一时成为新闻热点。

Atlas 900 AI训练集群是华为在其每年一度全联接2019大会上发布的当前全球最快的AI训练集群,代表了当今全球的算力巅峰,其总算力达到256P~1024P FLOPS @FP16,相当于50万台PC的计算能力。这么大的算力如果运行ResNet-50@ImageNet只需59.8秒就可完成训练,排名全球第一。那么这个速度到底有多牛?它的关键技术难点在哪儿?为什么华为可以做到?人们会有很多的疑问,本文讲详细解读背后的关键技术支撑。

1

Atlas 900系统

Atlas900训练集群的59.8秒到底有多快?

前面提到ImageNet,我们先来看看ImageNet是个什么?ImageNet刚开始一个计算机视觉系统识别项目, 是目前世界上图像识别大的数据库,大约包含上千万张标记的样本图片,为众多的图像识别AI算法提供样本数据。从2010年开始,开始举办ImageNet大规模视觉识别挑战赛。ImageNet成为一个业界权威的AI竞技场,短短7年内,AI优胜者的识别率就从71.8%提升到97.3%,超过了人类,极大促进了AI技术的飞速发展。

目前ImageNet已经不仅仅是一个AI算法竞技场,也成为众多AI厂商AI算力的竞技场,完成一次ImageNet训练的时间已经成为业界AI算力金标准。我们看看过去几年业界相关的新闻标题:

ü  2017年9月,24分钟完成ImageNet训练, 刷新世界纪录(UC Berkeley)

ü  2017年11月,11分钟训练完ImageNet,DNN训练再破纪录(UC Berkeley)

ü  2018年8月,世界纪录!4分钟训练完ImageNet!(腾讯)

可以看出,业界毫不吝啬对于训练完成时间每缩短几分钟后的欣喜感。不难理解的是这样一个完成一次训练大致需要百亿亿次的浮点计算的任务,即便是用全球性能高性能的超级计算机,也需要较长时间,而华为Atlas900训练集群一举将该训练时间缩短到1分钟以内,这不得不说是一个创举。这么看获得GSMA GLOMO未来技术大奖也是实至名归。

AI训练集群性能提升的难点在哪儿?

如何提升AI训练的算力,一个很容易想到的方法就是采用更高性能的处理器,诚然如此,AI处理器的性能是整个集群性能的基础,近几年来AI处理器的处理性能井喷式发展。但是一个集群往往涉及到成千上万的AI处理器参与计算,如何有效的协同才是当前业界面临大的难题。

单台AI服务器性能看处理器

Atlas 900 AI训练集群采用业界单芯片算力强的昇腾910 AI处理器,每颗昇腾910 AI处理器内置32个达芬奇AI Core,单芯片提供比业界高一倍的算力(256TFLOPS@FP16)。一台服务器可以配置8块昇腾AI芯片,整体浮点计算峰值能力有望接近到P级。

但是即便如此,远远不够完成一个AI训练(比如ImageNet训练)所要求的百亿亿次浮点计算要求,需要更多的AI服务器组成一个集群协同才能完成。那么是不是AI训练集群的规模越大,算力就越强呢?非常遗憾的是答案是否定的,这也成为AI训练集群性能提升真正的难点值所在。

AI训练集群性能瓶颈在网络

我们知道,2台服务器组成的AI集群,整体性能理论上应该是单台的2倍,但由于协同的开销,只能达到1.x倍。根据业界经验,当AI集群规模达到32个节点的时候,高只能达到理论性能的一半。如果再增加服务器节点不仅不能提升整体集群的性能,甚至有可能会下降。所有的AI训练集群存在它的性能天花板。

2

AI训练集群性能增长曲线

为什么会发生这样的现象?详细分析原因, 会发现AI训练集群在完成一次训练的时候会涉及到多个服务器之间频繁的大量的参数同步,一旦服务器规模变大,网络拥塞就用很严重,产生网络丢包。 实测数据得知即便只有1‰的网络丢包可能造成接近50%的网络吞吐下降,而丢包率会随着服务器节点数的增加而增加,如果丢包率达到2%的时候,整个网络将陷入瘫痪状态。不难看出,网络丢包成为AI集群性能提升的瓶颈,也成为AI集群性能提升的天花板。

华为是如何攻克这一难题的?

作为全球最快的AI训练集群Atlas 900,实现了数千颗昇腾910 AI处理器组成的上百台服务器节点互联构成。如何构建一个0丢包的网络成为Atlas 900性能天花板保证这几百个服务节点之间的高效无损互联成为需要解决的首要问题?

七年磨一剑,瞄准智能无损

早在2012年,华为为了应对未来数据洪水挑战,投入数十个科学家开始新一代无损网络的研究,致力于构建0丢包、低延时的以太网。七年如一日,经过多方向多路径的艰难探索,采用AI技术实现网络拥塞调度和网络自优化的iLossless算法方案,取得了突破性的进展。 iLossless算法为以太网的流量调度提供了智能预测能力,根据当前流量状态可以精准预测下一刻的拥塞状态,提前做好预留和准备。就好像我们看到警车开道就可以提前预测可能戒严的拥塞路段,根据机场航班起飞和降落的密集度可以预测机场高速的拥塞程度,提前做好调度,从而提高交通的通行率。

不过iLossLess算法作为AI算法,它的真正商用还必须依赖大量样本数据的训练,华为在过去的几年来与数百个客户联合创新,基于现网运行场景和独创的随机样本生成技术积累数千万的有效样本数据,训练的效果达到了理想目标,在任何场景下都实现了100%吞吐下的0丢包。

这一创新成果终结了以太网四十多年来一旦拥塞容易丢包的历史。目前在华为主导下,IEEE已经成立了Nendica(IEEE 802 “Network Enhancements for the Next Decade” Industry Connections Activity)工作组,成为以太网技术标准发展的新方向。

业界唯一0丢包的以太网,助力Atlas冲击全球算力巅峰

2019年初,华为发布了业界首款面向AI时代的CloudEngine数据中心交换机,率先将AI芯片内嵌交换机中,独创iLossless智能无损交换算法得到了最佳的运行平台,目前算法、算据和算力三大AI关键要素全部具备,新一代CloudEngine交换机完成了多年核心技术研究成果到商业落地的突破。

3

Atlas 900系统网络联接架构示意图

采用CloudEngine系列交换机组成智能无损的0丢包以太网络——AI Fabric。Atlas900就是采用AI Fabric连接而成, AI Fabric为Atlas集群内的每一个AI服务器提供8*100GE的接入能力,从而实现百TB全互联无阻塞0丢包专属参数同步网络。基于全球高密度400G的CloudEngine16800构筑的智能无损数据中心网络AI Fabric,不仅满足Atlas当前集群的0丢包诉求,更支持大规模400GE组网演进,为未来的Scale-out性能线性扩展提供了保障,确保持续的性能巅峰。

华为智能无损数据中心网络AI Fabric真正实现0丢包,100%释放AI算力,助力Atlas900冲击并持续保持全球算力巅峰。

智能无损DCN,引领下一代三网融合DCN架构

华为智能无损数据中心网络AI Fabric不仅仅是面向AI训练集群的高性能网络,更是代表面向云和AI数据中心的下一代网络新架构。彻底解决了丢包问题的以太网络,无论是在在代表存储发展方向的全闪存分布式存储,分布式数据库场景,还是以计算为核心HPC,大数据场景,都有极强的性能优势。根据第三方权威测试机构Tolly测试结果表明,0丢包的AI Fabric的带来的业务性能超越当前传统的以太网30%左右,完全可以和当前存储和计算专网相媲美。

构建一张融合的数据中心网络一直是网络运营者的梦想。过去由于传统以太网拥塞易丢包,无法胜任存储及其他要求较高的场景,像FC或者IB等专用网络尽管存在生态封闭、现网不兼容等众多问题,仍然无法彻底被抛弃,存在一定量的现网部署。华为智能无损的数据中心网络AI Fabric的发布,使得数据中心三网融合成为可能。目前在华为云、招行分行云、百度、UCloud等全球47个数据中心得到商用部署,实现计算网,存储网和业务网的归一化。据测算,统一融合的数据中心网络部署后可带来TCO降低53%。

智能无损数据中心网络,正在成为下一代三网融合DCN架构的基石!

华为公司简介

华为是全球领先的ICT(信息与通信)基础设施和智能终端提供商,致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。我们在通信网络、IT、智能终端和云服务等领域为客户提供有竞争力、安全可信赖的产品、解决方案与服务,助力各行业数字化转型

欲了解更多详情,请参阅华为官网:www.huawei.com

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-16 11:13:54
市场情报 让数字世界坚定运行 | 华为发布2024数据中心能源十大趋势
华为数据中心能源领域总裁尧权定义未来数据中心的三大特征:安全可靠、融合极简、低碳绿色 <详情>
2023-12-26 18:10:06
市场情报 双击电源键付款全场95折 华为门店感恩回馈惊喜来袭!
2024新年临近,备受花粉期待的华为感恩回馈季如期而至。 <详情>
2023-06-14 09:06:54
5G资讯 传高通恢复为华为提供5G芯片供应,华为5G手机真的回来了?
近年来,全球手机市场表现都较为低迷,华为在没有5G新机的条件下,销售量仍然可圈可点。 <详情>
2023-04-04 16:38:00
市场情报 中信网络与华为签署深化战略合作协议
双方将在新一代高速骨干网、云计算、大数据、ICT等领域开展全方位、多层次战略合作,通过资源共享、优势互补,实现战略共赢,更好地服务网络强国、数字中国建设大局,助力 <详情>
2023-04-03 09:28:07
国内资讯 华为2022年营收6423亿元 十年累计研发投入超9773亿元
3月31日,华为发布2022年年度报告,报告显示,华为整体经营平稳,实现全球销售收入6,423亿人民币,净利润356亿人民币。 <详情>