自从2011年Facebook牵头发起了Open Compute Project(OCP)基金会以来,OCP已经走过了10个年头。同样,以OCP发起为标志,开放计算产业也走过了精彩的十年。
7月27日,由OCP 社区主办、浪潮承办的第三届 OCP China Day2021在北京举行。大会以“开放计算再十年:降碳·增效·践行”为主题,参会者共同回顾了开放计算十年来的发展和创新路程。
OCP成立十年来,成员企业数量从个位数增长到如今250+,涉及的技术领域更是从最初关注数据中心服务器、机柜等IT基础设施,扩展到覆盖数据中心基础设施、服务器、网络、存储、硬件管理、机架&电源等九大类23个技术子项目,项目规模持续发展并不断壮大,获得了Facebook、微软、阿里巴巴、百度、腾讯、Intel、NV、浪潮等会员的支持和贡献。
Open Rack 3.0
Open Rack整机柜是开放计算的起点,也是开放计算对数据中心行业大的贡献,更是开放计算体系下一系列技术落地的基础承载。开放计算的主要目标之一是优化机架中服务器设计、简化安装和运维。此外,如何大规模地配置计算、存储、异构加速和网络资源以满足工作负载的需求,也是重要考量。
整机柜的设计理念是将各功能区的供电、散热、管理集中化和模块化,便于快速交付、降低成本,正在替代传统的机架服务器成为大规模数据中心的主要选择。Open Rack是OCP 21英寸整机柜服务器标准,在高密、高效、节能、降本等方面相比传统机架都有突破式的进步。
在Open Rack成功的影响之下,其他的开放计算组织也纷纷研发了自己的整机柜标准。如国内的开放计算组织ODCC社区的天蝎整机柜规范,就是优秀的整机柜标准之一。
经过多年发展,Open Rack已经发展到了3.0版本。Open Rack 3.0 将采用48V直流电源和液冷技术,机架高度从41OU增加到44OU,进一步提高数据中心的空间利用率,添加 GPU 等异构加速单元,以满足产业界对加速计算的需求。
来自Facebook的技术专家Steve Mills在分享中表示,Open Rack 3.0相比2.0,在空间、承重、供电等方面做了全面改进,例如框架高度增加了85mm,承重能力从1400kg增加到1600kg,采用分布式模块化供电,支持液冷,可以更好的帮助数据中心规模化部署AI/ML业务。
人工智能与异构计算
人工智能、物联网、工业互联网、自动驾驶、智慧城市等智能应用场景在如今已经成为纷纷落地,人类进入了人工智能时代。同时每天也会产生海量的数据,以及对算力的庞大需求。这些需求推动着计算加速器的技术飞速成长。
不同的需求,不同的场景,不同的硬件,多种多样的计算体系构成了今天信息化社会的基础。而在AI推动一系列面向深度学习、机器学习等应用的异构加速方案的发展的同时,也带来了硬件与软件迭代速度脱节,异构计算系统研发滞后的问题,OCP 社区在服务器项目组下设立了 OAI( Open Accelerator Infrastructure )项目组。该工作组旨在建立一整套可兼容各类 AI 加速器的技术标准,解决 AI 计算基础设施建设中硬件和生态分裂化的重大挑战。
OCP社区成员上海燧原科技有限公司的系统设计总监江斌在会上带来了液冷云燧T21及集群、UBB/OAM拓扑、OAM Tool等重磅成果。目前在燧原科技与浪潮等OCP成员的共同努力下,推出了OAI、UBB与OAM方面多项产品,为加速AI创新提供强大灵活的加速系统。
阿里云高级技术专家王楠分享表示,阿里云震旦异构加速平台设计了异构感知编译优化框架HALO和异构计算硬件统一接口规范ODLA,并进行了开源。他希望更多的硬件厂商一起加入其中,共建开放多元化普惠的异构计算软硬件生态。
存储技术
数据是数字化的载体,存储则是数据的存身之处。随着数字经济发展,数据量也呈指数级爆发。根据预测,到2025年,全球数据负载将上升到惊人的175ZB。庞大的数据量推动着数据中心的演化以及数据中心存储技术的创新。
存储一直是OCP关心的项目之一,也是整机柜标准需要关注重要组成部分。在数据爆炸的时代背景下既要保障数据的收集、存储、计算、分享等需求,也要确保在数据中心高密化发展的趋势下数据存储的稳定、安全。
西部数据公司副总裁兼中国区业务总经理刘钢表示,从大数据、快数据到可组合的分解式的存储架构,数据中心存储构架飞速变化,并且扩展到了面向云端、边缘、终端领域。存储方案也随着开放计算的延伸发展,惠及到更多的领域。
密度更高,算力更强,发热更多……数据中心在向高密化发展,在加大存储密度,加大散热风扇转速时,一个矛盾产生了。大容量硬盘结构愈发精密,而大功率风扇带来的震动甚至高频噪音,都会对硬盘碟片造成冲击或共振影响,就可能对硬盘中的数据造成不可挽回的损害。
OCP社区成员为从整体上解决震动对存储带来的问题正在进行着探索。希捷科技中国区产品线管理高级经理刘嘉表示,希捷作为硬盘制造商正在与服务器厂商一起联合进行设计,尝试把一些 SurrogateAcoustic Drive 放置到服务器里面,通过麦克风捕捉到噪声的振动,从而对服务器的设计做出优化。
5G与边缘计算
5G与边缘计算这一对最佳拍档在近年来成为热议的焦点,而且经常成双成对出现在专业的探讨中。OCP在近年来将研究领域延伸到边缘计算、5G,并且利用开放的优势,整合产业力量取得了优异的成绩。
在 OCP 社区中,电信工作组下设 Edge 工作组,项目组核心成员为诺基亚,目前已吸引众多运营商、电信设备制造商、ODM/OEM 厂商积极参与;Edge 项目组以电信边缘侧为主要部署目标,开发 Open Edge 边缘服务器。在中国开放计算社区,中国电信、中国移动、Intel、浪潮等厂商也早在2017 年底成立了 OTII 项目组,推动边缘计算技术创新的开发和应用。
Open Edge服务器及OTII 边缘服务器在设计时充分考虑了电信行业的需求。世界范围内有众多的电信运营商正在部署Open Edge服务器及OTII 边缘服务器。据OCP数据显示,通过虚拟化将无线接入网 ( RAN ) 运营支出减少 53%,资本支出减少 30%,同时节省功耗、场地租赁费用和现场管理费用。
中国电信研究院-AI研发中心负责人王峰表示,5G和MEC多接入的边缘计算是天生的耦合。国内的运营商以及浪潮等开放计算成员通过大量的原型设备制造和探索,逐步验证了5G、边缘计算发展路线。
Open Edge 项目之初主要考虑电信行业需求进行设计,但目前已有其他行业对该产品进行尝试。挪威房地产公司MIRIS 部署了Open Edge 服务器,支撑其在商业园和住宅区交付的智慧城市服务。MIRIS 自 2019 年起已经在挪威 20多个市区建立边缘数据中心,且正在探索在北欧地区进行更广泛的推广。
边缘计算将给各行各业带来颠覆性影响,业内厂商正不断探索新的边缘计算实践,近期有一项进展是开放边缘户外灵活机柜 ( FCOB ),可实现微型数据中心的户外部署。其运行气温为 -40°C 至 +50°C,可承受大多数亚洲、北美和欧洲的气候。
机架管理控制
当数据中心的规模越来越大,基础设施的管理,算力的聚合、调度将扮演愈加重要的角色。IT 资源的规模化、集中化促使数据中心对 IT 基础设施管理和设备的快速配置、远程故障定位及自动化、智能化运维提出更高要求。
机架管理控制(RMC)范围包括管理从服务器、GPU 服务器延伸到机柜中的部件,例如交换机、PDU 和风扇等,且可进一步配合数据中心的资源管理计划。RMC 将是实现开放计算设备规模化部署的重要推动力。
由浪潮牵头的开放机架管理控制 ( OpenRMC ) 项目正是为 IT 资源管理而生,专注数据中心自动化运维,在IT 资源的规模化、集中化的需求下,实现开放计算设备,包括IT设备、基础设施的快速配置及规模化部署。
OpenRMC 工作组的核心理念是:明确、统一的管理将使最终客户更轻松地管理和维护各类厂商的设备并极大地降低系统管理成本。OpenRMC工作组与DMTF (Desktop ManagementTaskForce )标准组织紧密合作,并且建立了明确的战略发展路线图:
为北向接口建立规范,让设备资源配置文件能够自行向远程客户端呈现以进行管理;
为南向接口建立规范,转换北向接口的需求、实现计算资源的收集和底层平台的控制;
建立机柜内服务器、交换机、电源、风扇等各部件的安全管理并与数据中心运营和业务资源调度相配合。
高速网络通信
5G、视频、VR等应用推动数据中心网络技术飞速发展,40G、100G、200G……如今已经发展到了400G网络。对于网络设备来说,新需求的背景下,低功耗、低成本、模块化、兼容性好、快速交付等成为行业的统一诉求。
OCP 在社区成立一年后即在服务器项目组设立 Mezz (NIC)子项目,该项目旨在实现网卡的模块化、标准化,增加各服务器厂家网卡的互通适配性,减少各家硬件投入成本,加速最新技术的部署和应用。
目前OCP Mezz (NIC) 规范已经成为业界 IO 选项的标准,特别是现在各行业对高密计算的需求增加,传统的通过 PCIe 插槽接出网络接口形式的设计已不符合市场趋势,OCP Mezz (NIC) 规范采用平板化设计,小巧轻薄,可节省大量的使用空间,更适用于高密度空间的要求。如今十多家公司共同编写的 NIC 3.0 技术规范已成为业内主流的网卡形态。
最新的 NIC 3.0 技术规范在 2.0 基础上增加了热插拔设计,实现机箱不开盖维护;信号速率从 PCIe Gen 4 起步,可以支持到 PCIe Gen 5;并通过外壳增加系统的空气流通,改善 NIC 卡的散热性能等。NIC 3.0 技术规范的推出增强了部件和服务器整机厂商的适配,有效减少了厂家在硬件设备的投入以及后期的维护费用,也为服务器和整机柜产品在非互联网行业的推广和落地减轻障碍。
降碳·增效·践行:辉煌十年,创新再十年
应用是技术创新的最终目的。OCP基金会在过去十年中,不仅仅在技术领域取得了充足的进步,各项目的落地同样效果显著。
OCP基金会CTO、临时董事Bill Carter在OCP ChinaDay会议致辞中表示,开放计算市场非常积极,各行业表现出强劲需求,参与社区项目的人数在疫情下仍保持增长,目前大约有50个项目在同时进行,拥有150多个解决方案,形成了从产品、组件到整机架的供应链体系。
目前,包括OCP基金会、ODCC、Open19等组织成员已经几乎囊括了行业所有主流厂商,在2019年在服务器市场的规模超过了百亿美元,并且进一步增长。
浪潮信息副总裁、AI&HPC产品线总经理刘军在致辞中道出了对于OCP及开放计算的发展期望:过去十年,开放计算成为数据中心创新的主力;未来十年,面对数据中心降碳、标准适配和计算多元化的挑战,希望能共建标准,共建生态,携手推动开放计算产业的协同创新。