【SC17观察】美国丹佛现场直击SC17 探寻计算力增长的困局和破局

作为拥有30年历史的全球最大超算会议,今年的SC17放在了美国丹佛举办,来自117个国家和地区的超过10000参会,同时吸引了334家厂商参展,均创下大会历年最高纪录。

这也是笔者第二年参加SC大会,置身在现场最大的感受是,过去一年里,全球超算领域确实发生了诸多的变化,而包括E级计算、人工智能和HPC云化在内的话题继续成为本届大会热议的焦点。

在这背后,究其根本的原因,还是人类在计算力的获取上,始终有着更高、更强的追求。但关键的是,随着摩尔定律的发展逐渐变缓,现有计算架构在功耗墙、性能墙、内存墙等基础领域却出现了重大的挑战。

所以,这也让人类从传统的计算架构上获取新的计算能力变得越来越难。那么,计算力在新时代下遭遇的这些新难题和新困局,究竟又有哪些解决之道呢?

计算力增长驱动力

从今年SC17上一系列的主题演讲、专题讨论、学术论坛中,你能感受到人类对计算力的需求确实是“永无止境”的,可以从三个小故事来看:

首先,今年超算大会上最大的亮点,无疑是14日的大会主题演讲:生命,宇宙与计算。来自世界最大射电望远镜项目SKA(平方公里阵列射电望远镜)总监Philip Diamond教授和SKA的地区中心项目科学家Rosie Bolton博士,向与会听众介绍了超算是如何帮助SKA项目探索宇宙的起源,以及宇宙大爆炸之后的宇宙是如何演化的。

【SC17观察】美国丹佛现场直击SC17 探寻计算力增长的困局和破局2

毫无疑问,SKA是我们这个时代全球最具雄心的科研项目之一,分布在两大洲的成千上万的天线将产生海量的数据,从而对超算和高速连接产生巨大的需求,可以说,计算力在SKA项目中无疑发挥着无比关键的作用。

其次,我们知道,神威太湖之光是中国有史以来最快的超算系统,其93.01PetaFlops的成绩“傲视群雄”。不过,在今年的SC17上,来自top500.org官网的报道显示,美国能源部橡树岭国家实验室正在建造的HPC系统“Summit”,将达到200PetaFlops的性能峰值。可以想象,未来众多超算传统应用,尤其是科研领域无疑将从“Summit”的计算力中获得巨大的性能提升。

最后,与机器学习、深度学习相结合的HPC同样正在成为未来十年超算领域最为重要的发展之一。来自英伟达创始人兼CEO黄仁勋在SC17期间的媒体活动中就表示,随着人工智能的快速发展,更深更大的算法模型、更复杂的架构正在成为趋势。在这种情况之下,如果计算力不能相应增长,整个人工智能的学习过程将变得无比漫长。

【SC17观察】美国丹佛现场直击SC17 探寻计算力增长的困局和破局3

不仅如此,我们甚至还能从另外一个维度来看全球整个计算力市场的增长变化,Hyperion Research在最新的报告中表示,2016年全球超算系统的销售额达到了112亿美元,预计未来五年每年将增长6%以上。更重要的是,来自人工智能领域的AI服务器市场,同样也从2015年的约15亿美元增长到2021年的约40亿美元,复合年均增长率为17%.

正如浪潮集团副总裁胡雷钧在SC17上接受笔者访问时所言:“未来对计算能力的需求,无论是在传统超算领域,还是在机器学习和神经网络识别等AI的新方向上,对计算力的需求依然是很强烈的,且没有上限。”

从这个角度来说,今年SC17上传递了这样一个很明确的信息,那就是全球超算以及和其密切相关的AI领域,对计算力均有着更高的追求,而满足这个需求要解决的诸多挑战,同样也是整个业界共同致力于突破和实现的新课题。

背后的困局和破局

在胡雷钧看来,高性能计算未来主要有三个主要发展方向:模拟仿真、数据分析以及AI.其中,AI消耗计算能力的速度,远比想象的要快得多,尤其是随着神经网络层数的增大,层间连接的增加,数据规模的不断膨胀,加上未来新的模型和算法的出现,将让AI对计算能力的需求有几何级的增长。

浪潮集团副总裁胡雷钧

浪潮集团副总裁胡雷钧

在这种背景下,由于摩尔定律的放缓,可以预见到未来计算能力的提升将是相对有限的,硬件的潜力挖掘也将会变得困难,因此对业界而言,就必须得在其他方面多做工作。

所以,对浪潮而言目前有两个方面的工作重点:即如何从现在的半导体制造工艺上挖掘出更高的性能,以及如何优化软件让计算力的潜力得以更全面的释放,具体来看:

第一,从半导体制造工艺看,就是要在系统级提高计算密度,尽量能够在有限的空间,有限的功耗能力上面,能够集成更多的计算能力,这是一种“平铺”的能力,更多还是一种传统的手段。

此外,还可以从每个晶体管能提供的计算力角度看,更多的把通用的计算变成半专用的,再从半专用的变成定制的。例如,针对通用处理器,可以增加一些新的指令,新的加速单元,新的模块等;同时,针对半专用处理器,是指通过增加专用的指令,来提高计算效率,典型如GPU处理器,现在已经逐渐成为市场主流。

不仅如此,针对专用定制处理器,意味着必须要有成熟的应用或者说场景,以AI计算来说,在训练的场景下,由于需求和高性能计算是类似的,因此可以把当下业界最优的提高计算能力的方法用上,从而提高计算性能;而在识别的场景下,更多是追求性价比,追求性能功耗比,追求响应速度等,所以一些专用的芯片、低功耗的芯片可能就会有更多的发挥空间。

第二,从软件优化角度看,过去很多的算法可以比喻为:“暴力破解”,即把所有的可能性都找出一遍,或者说做“评分”,最后才能找出最优的办法。往后,需要把人类的知识和经验加入进来,在此基础上训练模型,让人工神经网络也能实现“生长”。

微信图片_20171117085532

与此同时,还要加强软件的生态系统建设,现在很多应用都是大公司在使用,但是对一般的普通用户、行业用户以及企业用户,很多时候是没有能力去应用这些软件的,他们更期望有供应商把训练好的模型或者是人工神经网络给他使用。

而在系统软件层面,对浪潮而言,还可以把目前在云计算、软件定义存储以及超算系统管理方面的经验,移植到人工智能领域来,最大化的让计算力得以提升。

不难看出,计算力的提升遇到的发展瓶颈不是单一的,既包括对硬件性能的挖掘,也包括软件层面的不断优化。换句话说,计算力要想继续往前提升和发展,就必须要求供应商在体系化、层次化以及生态化方面不断升级和迭代。

浪潮探索与创新之路

在这个过程中,为了使计算力发挥更强大的效力,浪潮也不断探索与创新计算力的升级之路,其中最为典型的莫过于针对FPGA的研发。

微信图片_20171117085539

对此,胡雷钧表示:“对于FPGA来讲,这永远是我们探索未来的一个平台,浪潮并不指望它今年投入,明年、后年就能有回报。”在他看来,FPGA是通用计算到专用计算之间的桥梁,特别是FPGA在某些应用场景下,其灵活和效率,对计算力的提升都是有很大促进作用的。

据了解,在SC16上,浪潮研发的FPGA加速卡F10A宣布正式上市,这是目前业界支持OpenCL的最高密度最高性能的FPGA加速设备,F10A基于Altera的Arrial10芯片,单芯片峰值运算能力达到了1.5TFlops,功耗却只需35W,每瓦特性能达到42GFlops.

如今,经过一年多的努力,在SC17上,浪潮又公布了在FPGA领域取得的技术进展与新的性能突破:浪潮在FPGA多卡扩展性上,针对AlexNet模型,在ImageNet数据集上展开了测试,经过优化的4 FPGA卡解决方案的性能达到了单卡的3.9倍。

微信图片_20171117085544

此外,针对ResNet56模型,在CIFAR-10数据集上进行优化测试,达到了750+fps的测试成绩,远好于多核加速芯片约420fps的成绩;最后,浪潮与英特尔、Falcon Computing合作的浪潮基因一体机M2全基因分析流程时间较上一代提升3.4倍。

实际上,不仅是在FPGA这种专用计算领域,浪潮在通用的高性能计算领域也有很多尝试。例如,浪潮与英特尔联合推出的Keep计划在今年也进行重大升级,其平台将32个计算节点的KNL芯片升级到了KNM,同时为加速AI训练过程及HPC,这些计算节点之间均采用OPA高速网络互联等等。

新的Keep平台带来的成绩是显著的,在该平台开展的AI基准测试显示,ImageNet数据集上,采用Intel Caffe,AlexNet模型的32 KNL节点的扩展效率高达93%.而对于传统HPC应用,KEEP平台也有很好的表现,例如针对SKA项目中的Gridding软件,InspurAI&HPC应用研发团队成功的在KNL芯片上取得了高达12.3x的加速比。

值得一提的是,在浪潮“立身之本”硬件服务器之外,浪潮在人工智能框架层以及系统管理层均有所涉猎。2015 年,浪潮发布全球首个集群并行版的 Caffe 深度学习计算框架——Caffe-MPI,它保留了伯克利版本 Caffe 架构的特性,同时又兼具高性能计算系统所需的良好并行扩展性。而在系统管理层,浪潮 AIStation 提供从数据准备到分析训练结果的完整深度学习业务流程,提高集群的可靠性。

微信图片_20171117085552

显而易见,这一系列的探索对浪潮的价值同样意义非凡,胡雷钧把它归结为三大能力的提升:

一是,从产品上看,在丰富浪潮计算力硬件设备的同时,也让浪潮具备了把这些基础领域的研究转换成产品平台的能力;二是,从应用上看,更促进了浪潮未来能比较好的把握前沿应用和趋势的能力;三是,从服务上看,浪潮也锻炼了一支强大的专家型服务队伍,强化了在服务领域的应用需求分析、系统架构设计、专用技术验证和实施的能力。

所以,胡雷钧强调:“无论是在FPGA上的工作,还是我们以后在系统级平台上的开发,甚至浪潮未来进入一些专用定制的加速器领域,都有很大的作用,而这种探索和创新的精神,无疑也是我们始终坚持的。”

总结来看,浪潮正以前所未有的前瞻力和爆发力,不断加速计算力的提升,这是整个超算和人工智能市场进化的必然趋势,也是浪潮不断创新和突破的证明,而在这背后,更是浪潮始终坚持赋能计算产业的决心和信心的充分体现。

微信图片_20171117085600

 

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-10-31 18:02:34
云资讯 世界首个:浪潮宣布推ON5263M5计算节点
2017年10月30日,在数据中心和云计算总体解决方案领先的提供商浪潮于加利福尼亚州宣布推出其新的ON5263M5计算节点,该节点已经从开放计算项目OCP(Open Compute Project ) <详情>
2017-10-26 10:04:33
国内资讯 工信部公布新增5家云服务牌照企业 华为、浪潮上榜
10月25日,工信部发布获得互联网资源协作服务许可(云服务牌照)的企业名单,此次获得许可的企业包括:太平洋电信股份有限公司、华为软件技术有限公司、浪潮软件集团有限公 <详情>
2017-10-10 23:01:08
云资讯 公有云规模大涨34.1%,华为、浪潮进全球云基础设施五强
全球云IT基础设施务的市场规模在过去四年几乎增长了三倍,而形成鲜明对比的是传统(非云)IT基础设施市场呈现出持续下滑的状态,本季度传统IT基础设施市场规模虽然达到136 <详情>
2017-09-08 17:58:00
云资讯 浪潮、IBM合作力推Power服务器 昔日“冤家”成合伙人
8日下午,浪潮发布公告披露与IBM达成战略合作,双方共同签署了合资经营企业合同,并合资成立浪潮商用机器有限公司。 <详情>
2017-09-08 17:02:35
云资讯 浪潮与IBM成立合资公司 开发推广开放的Power服务器
双方将合资成立浪潮商用机器有限公司,研发、生产、销售基于开放的Power技术的服务器,完善服务器的生态系统,建立可持续发展的服务器业务,为用户提供先进的、差异化和多 <详情>