“自研芯片的创新,会是改变云计算游戏规则最重要的力量之一。”2021亚马逊云科技re:Invent全球大会媒体沟通会上,亚马逊云科技大中华区产品部总经理顾凡如是说。而亚马逊云科技正是最早做自研芯片的云厂商。

顾凡表示,亚马逊云科技的Nitro产品线到今天已经发展到第四代,并且,亚马逊云科技还有基于机器学习推理和训练的芯片产品线Inf1,有基于ARM架构的CPU Graviton整个版本产品线。同时,他进一步指出,自研芯片是需要经验积累的,并非花钱即可,更不可能急于求成,亚马逊云科技在自研芯片上的成就体现的是经验的价值。

自研芯片是一个突破创新的过程

芯片处于云计算的底层,在云计算规模不断扩大、应用范围进一步广泛,企业需求更加复杂多样的情况下,芯片也需要进一步创新。亚马逊云科技自研芯片的发展之路也正是不断突破之路,这从Graviton的发展便能体现出来。

亚马逊云科技大中华区产品部计算与存储总监周舸表示,2018年,亚马逊云科技首次推出基于Graviton的实例便获得了广泛认可;2019年,第二代Graviton发布,实例上市后,客户将更多不同的应用方式部署到Graviton上面,应用跨越的范围进一步拓展,从最初的Cache到Web再延伸到数据分析,甚至包括机器学习和高性能计算的工作负载。

本次re:Invent亚马逊云科技又发布了四个新的基于Graviton2的实例,其中包括一个TB内存的X2gd;此外,Is第四代的Instance做的实例里面,我们有看到Is4gen和Im4gen。这里面的“g”指的就是Graviton2。

在此基础上,第三代Graviton也已经发布,性能超过上一代25%,并且,在特定的一些工作负载上面,还会有更大的提升。

周舸指出,亚马逊云科技芯片的研究自2013年开始,此后,包括Graviton在内的几条线是同时展开研发的,目前都取得了进一步的突破创新,以更好地满足客户的上云需求。

自研芯片需做好选择题

芯片的创新突破需要大量的研发,不同的方向决定了不同的芯片设计成果。周舸坦言,对设计芯片的人来讲,有很多选择题的问题,做好选择才能有产出良好性能的芯片。而做选择的原则其实很简单,就是从工作负载去看,从客户使用这些设备的实际使用情况和需求去找寻起点。周舸还以提升CPU性能为例为例对此进行了阐述。

他表示,在过去的20年时间中,提升CPU性能最容易的两个方向,一是提高频率,二是增加内核数量。不过,提高频率存在一定的缺陷,周舸指出,提高频率产生了更多的热,热带来了更多散热的压力和负载。大量的耗电又增加了能耗,降低了云的效率,需要再一步去提升耗电量。造成使用成本上升。

为了规避相关弊端,亚马逊云科技选择打破常规的其他方法。通过使用指令并行的方式,使内核在同一个时钟周期里能够执行更多的指令、完成更多的任务,明显提升了相关应用的性能,如x264、265的解码性能提升接近50%左右。

另一个方向,即增加内核数量,周舸坦言,这是非常快速、有效的办法。不过,在一些工作负载里大量是大数据、微服务架构及一些HPC的服务,这些服务对于内存的带宽和延时的敏感度非常高,面对这一情况和客户服务的需求,提升内存在亚马逊云科技看来效果更好。于是,在面临增加核数和提升内存的选择时,亚马逊云科技最终选择了内存。

事实证明,这一选择是正确的,Graviton3相对于Graviton2以及Intel的tool平台,内存带宽提升了50%,已经受到了客户良好的反馈。

除此之外,对于芯片研发的另一重要指标——功耗,亚马逊云科技也始终关注并将Graviton产品的功耗降低了60%,不仅通过此改善了性能,还降低了成本。

自研芯片需要在内存和网络上进一步突破

近年来,如机器学习等,在模型复杂度和数据方面增长快速,周舸表示,只靠提升GPU性能、加速芯片,已经难以满足需求。真正的解决方法关键是需要并行做训练,并行训练,意味着芯片之外,还要解决别的问题。其中,很重要的两个点,一是内存,二是网络。

亚马逊云科技在这两方面也始终致力于推动这两面的发展,

周舸介绍,从P3dn开始,亚马逊云科技的内存一直在增加。到今年的Trn1已经是512G的内存。网络的进步也非常卓越,在几年前,亚马逊云科技已经推出100G的网络,去年已经达到400G。Trn1今年已经达到800G,Trn1n则可以到1600G。同时,基于EFA,亚马逊云科技可以让机器学习的设备、机器组在一个Architecture里面,以获得更快的网络传输能力,进而提升整个机器学习的能力。

值得注意的是,Nitro被认为是内存和网络发展创新的起点。

周舸表示,Nitro提供了统一的安全性平台,无论亚马逊云科技使用什么样的CPU,都可以获得一致的安全性、一致的VPC接入能力、一致的API统一性等。在提升网络能力方面,从100G到1600G的发展都离不开Nitro。在提升内存方面,亚马逊云科技已经推出了第二代Nitro SSD。在目前亚马逊云科技整个云体系里,已经部署了超过50万个Nitro SSD。今年三个新的机型都使用到了新的Nitro SSD,其中包括Intel平台的I4i以及基于Graviton2的两个机型。

由此可见,在芯片研发方面,亚马逊云科技不止是在提升这些专用芯片本身的能力,也在构建更适合这些专业芯片发挥的网络环境和它配套的所有服务。

通过芯片的研发以及配套服务的提升,亚马逊云科技夯实了自身发展的地基。除此之外,亚马逊云科技在其他方面也在不断探索求新,这集中变现为顾凡总结的,包括发展自研芯片在内的云计算行业五个风向标,分别是:重构云计算底座,自研芯片再升级;大云无疆,无限拓展;代码即云,万物皆API;降低门槛,把云计算交到更多人手中;可持续发展,亚马逊云科技责任重大。

正是因为这些突破创新,亚马逊云科技取得了令人侧目的成绩。根据亚马逊云科技第三季度的财报,其年化收入为161亿美元,增长速度达到了39%,这也意味着亚马逊云科技一年便增加了超过200亿美元的收入。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-12-10 17:27:02
市场情报 亚马逊云科技提出五大理念 解构数据库发展变革
数据是应用程序的一部分,数据库的服务离不开应用,应用端的变化驱动着整个数据库技术和生态发生变化。 <详情>
2021-12-07 11:09:06
市场情报 直面海外业务拓展新挑战 虎牙如何选定数据库?
Nimo TV便是虎牙的海外直播产品,是虎牙业务全球化进程中的成果,2020年,Nimo TV的MAU突破三千万,在Nimo TV发展过程中,数据库扮演了不可或缺的重要角色。 <详情>
2021-12-01 20:52:02
市场情报 亚马逊云科技推出三款由自研芯片支持的新Amazon EC2实例
在亚马逊云科技re:Invent全球大会上,亚马逊云科技宣布推出三款由自研芯片支持的新Amazon Elastic Compute Cloud (Amazon EC2)实例,帮助客户显著提升在Amazon EC2上运行的 <详情>
2021-12-01 18:48:00
市场情报 亚马逊云科技宣布推出Amazon IoT FleetWise
通过Amazon IoT FleetWise,汽车制造商可以轻松地收集和管理汽车中任何格式的数据(无论品牌、车型或配置),并将数据格式标准化,方便在云上轻松进行数据分析。 <详情>