【SC17观察】美国丹佛现场直击SC17 探寻计算力增长的困局和破局_IDC国际资讯

【SC17观察】美国丹佛现场直击SC17 探寻计算力增长的困局和破局

作为拥有30年历史的全球大超算会议，今年的SC17放在了美国丹佛举办，来自117个国家和地区的超过10000参会，同时吸引了334家厂商参展，均创下大会历年高纪录。

这也是笔者第二年参加SC大会，置身在现场大的感受是，过去一年里，全球超算领域确实发生了诸多的变化，而包括E级计算、人工智能和HPC云化在内的话题继续成为本届大会热议的焦点。

在这背后，究其根本的原因，还是人类在计算力的获取上，始终有着更高、更强的追求。但关键的是，随着摩尔定律的发展逐渐变缓，现有计算架构在功耗墙、性能墙、内存墙等基础领域却出现了重大的挑战。

所以，这也让人类从传统的计算架构上获取新的计算能力变得越来越难。那么，计算力在新时代下遭遇的这些新难题和新困局，究竟又有哪些解决之道呢？

计算力增长驱动力

从今年SC17上一系列的主题演讲、专题讨论、学术论坛中，你能感受到人类对计算力的需求确实是“永无止境”的，可以从三个小故事来看：

首先，今年超算大会上大的亮点，无疑是14日的大会主题演讲：生命，宇宙与计算。来自世界大射电望远镜项目SKA（平方公里阵列射电望远镜）总监Philip Diamond教授和SKA的地区中心项目科学家Rosie Bolton博士，向与会听众介绍了超算是如何帮助SKA项目探索宇宙的起源，以及宇宙大爆炸之后的宇宙是如何演化的。

【SC17观察】美国丹佛现场直击SC17 探寻计算力增长的困局和破局2

毫无疑问，SKA是我们这个时代全球具雄心的科研项目之一，分布在两大洲的成千上万的天线将产生海量的数据，从而对超算和高速连接产生巨大的需求，可以说，计算力在SKA项目中无疑发挥着无比关键的作用。

其次，我们知道，神威太湖之光是中国有史以来最快的超算系统，其93.01PetaFlops的成绩“傲视群雄”。不过，在今年的SC17上，来自top500.org官网的报道显示，美国能源部橡树岭国家实验室正在建造的HPC系统“Summit”，将达到200PetaFlops的性能峰值。可以想象，未来众多超算传统应用，尤其是科研领域无疑将从“Summit”的计算力中获得巨大的性能提升。

最后，与机器学习、深度学习相结合的HPC同样正在成为未来十年超算领域最为重要的发展之一。来自英伟达创始人兼CEO黄仁勋在SC17期间的媒体活动中就表示，随着人工智能的快速发展，更深更大的算法模型、更复杂的架构正在成为趋势。在这种情况之下，如果计算力不能相应增长，整个人工智能的学习过程将变得无比漫长。

【SC17观察】美国丹佛现场直击SC17 探寻计算力增长的困局和破局3

不仅如此，我们甚至还能从另外一个维度来看全球整个计算力市场的增长变化，Hyperion Research在最新的报告中表示，2016年全球超算系统的销售额达到了112亿美元，预计未来五年每年将增长6%以上。更重要的是，来自人工智能领域的AI服务器市场，同样也从2015年的约15亿美元增长到2021年的约40亿美元，复合年均增长率为17%.

正如浪潮集团副总裁胡雷钧在SC17上接受笔者访问时所言：“未来对计算能力的需求，无论是在传统超算领域，还是在机器学习和神经网络识别等AI的新方向上，对计算力的需求依然是很强烈的，且没有上限。”

从这个角度来说，今年SC17上传递了这样一个很明确的信息，那就是全球超算以及和其密切相关的AI领域，对计算力均有着更高的追求，而满足这个需求要解决的诸多挑战，同样也是整个业界共同致力于突破和实现的新课题。

背后的困局和破局

在胡雷钧看来，高性能计算未来主要有三个主要发展方向：模拟仿真、数据分析以及AI.其中，AI消耗计算能力的速度，远比想象的要快得多，尤其是随着神经网络层数的增大，层间连接的增加，数据规模的不断膨胀，加上未来新的模型和算法的出现，将让AI对计算能力的需求有几何级的增长。

浪潮集团副总裁胡雷钧

在这种背景下，由于摩尔定律的放缓，可以预见到未来计算能力的提升将是相对有限的，硬件的潜力挖掘也将会变得困难，因此对业界而言，就必须得在其他方面多做工作。

所以，对浪潮而言目前有两个方面的工作重点：即如何从现在的半导体制造工艺上挖掘出更高的性能，以及如何优化软件让计算力的潜力得以更全面的释放，具体来看：

第一，从半导体制造工艺看，就是要在系统级提高计算密度，尽量能够在有限的空间，有限的功耗能力上面，能够集成更多的计算能力，这是一种“平铺”的能力，更多还是一种传统的手段。

此外，还可以从每个晶体管能提供的计算力角度看，更多的把通用的计算变成半专用的，再从半专用的变成定制的。例如，针对通用处理器，可以增加一些新的指令，新的加速单元，新的模块等；同时，针对半专用处理器，是指通过增加专用的指令，来提高计算效率，典型如GPU处理器，现在已经逐渐成为市场主流。

不仅如此，针对专用定制处理器，意味着必须要有成熟的应用或者说场景，以AI计算来说，在训练的场景下，由于需求和高性能计算是类似的，因此可以把当下业界最优的提高计算能力的方法用上，从而提高计算性能；而在识别的场景下，更多是追求性价比，追求性能功耗比，追求响应速度等，所以一些专用的芯片、低功耗的芯片可能就会有更多的发挥空间。

第二，从软件优化角度看，过去很多的算法可以比喻为：“暴力破解”，即把所有的可能性都找出一遍，或者说做“评分”，最后才能找出最优的办法。往后，需要把人类的知识和经验加入进来，在此基础上训练模型，让人工神经网络也能实现“生长”。

微信图片_20171117085532

与此同时，还要加强软件的生态系统建设，现在很多应用都是大公司在使用，但是对一般的普通用户、行业用户以及企业用户，很多时候是没有能力去应用这些软件的，他们更期望有供应商把训练好的模型或者是人工神经网络给他使用。

而在系统软件层面，对浪潮而言，还可以把目前在云计算、软件定义存储以及超算系统管理方面的经验，移植到人工智能领域来，大化的让计算力得以提升。

不难看出，计算力的提升遇到的发展瓶颈不是单一的，既包括对硬件性能的挖掘，也包括软件层面的不断优化。换句话说，计算力要想继续往前提升和发展，就必须要求供应商在体系化、层次化以及生态化方面不断升级和迭代。

浪潮探索与创新之路

在这个过程中，为了使计算力发挥更强大的效力，浪潮也不断探索与创新计算力的升级之路，其中最为典型的莫过于针对FPGA的研发。

微信图片_20171117085539

对此，胡雷钧表示：“对于FPGA来讲，这永远是我们探索未来的一个平台，浪潮并不指望它今年投入，明年、后年就能有回报。”在他看来，FPGA是通用计算到专用计算之间的桥梁，特别是FPGA在某些应用场景下，其灵活和效率，对计算力的提升都是有很大促进作用的。

据了解，在SC16上，浪潮研发的FPGA加速卡F10A宣布正式上市，这是目前业界支持OpenCL的高密度高性能的FPGA加速设备，F10A基于Altera的Arrial10芯片，单芯片峰值运算能力达到了1.5TFlops，功耗却只需35W，每瓦特性能达到42GFlops.

如今，经过一年多的努力，在SC17上，浪潮又公布了在FPGA领域取得的技术进展与新的性能突破：浪潮在FPGA多卡扩展性上，针对AlexNet模型，在ImageNet数据集上展开了测试，经过优化的4 FPGA卡解决方案的性能达到了单卡的3.9倍。

微信图片_20171117085544

此外，针对ResNet56模型，在CIFAR-10数据集上进行优化测试，达到了750+fps的测试成绩，远好于多核加速芯片约420fps的成绩；最后，浪潮与英特尔、Falcon Computing合作的浪潮基因一体机M2全基因分析流程时间较上一代提升3.4倍。

实际上，不仅是在FPGA这种专用计算领域，浪潮在通用的高性能计算领域也有很多尝试。例如，浪潮与英特尔联合推出的Keep计划在今年也进行重大升级，其平台将32个计算节点的KNL芯片升级到了KNM，同时为加速AI训练过程及HPC，这些计算节点之间均采用OPA高速网络互联等等。

新的Keep平台带来的成绩是显著的，在该平台开展的AI基准测试显示，ImageNet数据集上，采用Intel Caffe，AlexNet模型的32 KNL节点的扩展效率高达93%.而对于传统HPC应用，KEEP平台也有很好的表现，例如针对SKA项目中的Gridding软件，InspurAI&HPC应用研发团队成功的在KNL芯片上取得了高达12.3x的加速比。

值得一提的是，在浪潮“立身之本”硬件服务器之外，浪潮在人工智能框架层以及系统管理层均有所涉猎。2015 年，浪潮发布全球首个集群并行版的 Caffe 深度学习计算框架——Caffe-MPI，它保留了伯克利版本 Caffe 架构的特性，同时又兼具高性能计算系统所需的良好并行扩展性。而在系统管理层，浪潮 AIStation 提供从数据准备到分析训练结果的完整深度学习业务流程，提高集群的可靠性。

微信图片_20171117085552

显而易见，这一系列的探索对浪潮的价值同样意义非凡，胡雷钧把它归结为三大能力的提升：

一是，从产品上看，在丰富浪潮计算力硬件设备的同时，也让浪潮具备了把这些基础领域的研究转换成产品平台的能力；二是，从应用上看，更促进了浪潮未来能比较好的把握前沿应用和趋势的能力；三是，从服务上看，浪潮也锻炼了一支强大的专家型服务队伍，强化了在服务领域的应用需求分析、系统架构设计、专用技术验证和实施的能力。

所以，胡雷钧强调：“无论是在FPGA上的工作，还是我们以后在系统级平台上的开发，甚至浪潮未来进入一些专用定制的加速器领域，都有很大的作用，而这种探索和创新的精神，无疑也是我们始终坚持的。”

总结来看，浪潮正以前所未有的前瞻力和爆发力，不断加速计算力的提升，这是整个超算和人工智能市场进化的必然趋势，也是浪潮不断创新和突破的证明，而在这背后，更是浪潮始终坚持赋能计算产业的决心和信心的充分体现。

微信图片_20171117085600