即便深度学习和其它机器学习方法近几年已经取得了不小的发展,但是把它们直接应用在真实工业场景中、让它们直接控制工业系统还未曾见到。深度学习本身缺乏鲁棒性、面对新状况难以预测行为等一些特性固然是重要的掣肘之处,如何让算法逐步提高控制范围、协调与人类的协作方式也是难题。DeepMind 和谷歌最近就做出了新一步尝试,取得了不小的成功,然后在 DeepMind 博客上进行了介绍。

微信图片_20180820144348

我们人类社会面对的许多紧迫问题中,有许多问题还在变得越来越复杂,所有人都急切地想要找到好的解决方法。对于 DeepMind 和谷歌来说,他们相信如果人类可以把 AI 作为探寻新知识的工具加以利用,找到解决方法就会容易得多。

2016 年时,DeepMind 和谷歌联手开发了一个基于 AI 的动作推荐系统,向负责维护、调节冷却系统的数据中心运营人员推荐不同状况下的应对方法,它让谷歌当时已经具有很高能源效率的推荐系统数据中心向前更进了一步。他们的出发点也很简单,为了应对全球气候变化,大型能耗场所的一点点小改进也能在在减少能源消耗、减少二氧化碳排放方面有重大影响。

最近,DeepMind 把这个系统升级到了一个全新的级别上:不再像原来的系统那样向人类推荐一些动作,然后由人类去完成,AI 系统现在会直接控制数据中心的冷却系统,当然了它也仍然受到数据中心运营人员的专业监控。这是首个基于云的控制系统,已经在多个谷歌的数据中心中安静地运行、持续地节省能源。

工作方式

每隔 5 分钟,这个基于云的 AI 会从数据中心的数千个传感器中采集数据,获得数据中心冷却系统的状态快照,然后把它输入深度神经网络。这个网络会预测各种可能的操作的不同组合会如何影响数据中心的能量消耗。然后 AI 就会就会在满足鲁棒安全性限制的条件下判断出一组能够最小化能源消耗的动作。这些动作的判断结果接下来会被发回给数据中心,由本地的控制系统验证并执行。

微信图片_20180820144355

这种系统运行的想法其实来自于在数据中心使用原来那个 AI 推荐系统的操作人员。他们告诉 DeepMind 的研究人员们,虽然系统给他们教了一些最新好的操作技巧,比如让冷却介质覆盖更多的设备,而不是更少,但是实现这些推荐操作其实需要花费非常多的操作精力和长期规划。所以他们自然地就很想知道,能不能不需要人来出力就达到类似的能源节省效果。

现在他们就可以很高兴地宣布,答案是能。谷歌的一位数据库操作人员表示:「我们希望可以节省能源,同时也降低操作人员的工作强度。自动化的系统就可以让我们以更高的频率执行更细粒度的行动,同时出的错误还更少。」

兼顾安全性和可靠性

谷歌的数据中心里一般都有上千台服务器,它们支撑着谷歌搜索、Gmail、YouTube 等用户们每天都会使用的服务。确保这些服务可以可靠、高效地运行是最关键的一件事。DeepMind 和谷歌一起设计 AI 智能体以及背后的控制界面时,都是带着安全、可靠的思维从头设计的,还使用了 8 种不同的机制确保系统能够总是能够按照预期行动。

他们使用的方法里,其中一种较为简单的是估计不确定性。对于总计上亿个可能的动作中的每一种,AI 智能体都需要计算自己认为这是一个好的动作的信心。估计出来信心太低的动作就不去考虑了。

另一个方法是两层验证。AI 计算出的最优行动首先需要根据一个内置的、由数据中心运营人员们制定的安全限制清单做检查。计算的结果通过检查、从云端发送到实际的数据中心之后,当地的控制系统还会再次把指令根据自己的一套安全限制清单再检查一遍。这种冗余设计的检查流程确保了系统的运行总是在当地的限制之内的,操作人员们也总是对操作的边界有完全的控制。

最重要的是,谷歌的数据中心总是会受到人类的完全控制的,人类随时可以选择退出 AI 控制模式。这时候,控制系统会自动从 AI 控制无缝地切换到基于现代自动化工业使用的基于现场规则的以及启发式设计的控制系统。

他们设计的其它安全机制如下图:

微信图片_20180820144403

连续监控、自动错误重启、平滑切换、两层验证、不间断通讯、不确定性估计、规则与启发式设计的备用控制系统、人类指令优先 越用越节省能源

相比于原来的动作推荐系统需要操作人员自己检查以及实施推荐的动作,新的 AI 控制系统是自己直接实现这些动作的。DeepMind 和谷歌的研究人员在开发它时也有有意识地把系统的优化边界设定到了一个更窄更小的策略中,让它把安全和可靠作为首要目标,也就是说对于节约能源的目标来说,它需要在过于节约导致的不稳定风险和优化不足的低反馈之间找到平衡。

虽然只上线了几个月时间,这个系统已经可以稳定地节约平均 30% 左右的能源,而且他们还期待系统未来可以改善更多。这是因为随着数据更多,系统的优化判断能力也会变得更强,如下图。随着技术越来越成熟,DeepMind 和谷歌的研究人员未来也会把系统的优化边界设置得宽松一些,来达到更好的能源节约效果。

微信图片_20180820144407

这个 AI 直接控制的系统时不时找到一些新的方法管理冷却系统,有一些方法甚至让数据库操作人员觉得惊讶。与这个系统紧密协作的一位谷歌数据中心运营人员就惊讶道:「这个 AI 会利用冬天外面比较冷的特点,产生比平时更冷的冷却水,然后减少了给数据中心降温所需的能源消耗。规则是不会自己变得越来越好的,但是 AI 可以啊。

对于已经安全运行、独立运行、降低能耗的 AI 直接控制系统,DeepMind 和谷歌都觉得非常激动。不过,在数据中心中使用这样的系统才仅仅是个开始。在长远的未来,他们认为还有很多的潜力把这样的技术运用在其他工业场景中,也就可以在更大的规模上帮助对抗气候变化。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-02-23 16:21:12
机房建设 英伟达:数据中心收入暴涨409%,独中国下降到个位数
中国互联网大厂已测试英伟达“中国特供版”AI芯片样品,结果并不理想——由于算力不足,相关公司已暗示英伟达,今年订购的英伟达芯片数量将远少于原计划。 <详情>
2024-02-18 10:59:00
新闻动态 已建数据中心资源60.7 万架 东数西算各地进度如何?
可以说,《2022-2023年中国东数西算枢纽节点IDC行业发展研究报告》是了解东数西算八大枢纽节点数据中心和算力产业的重要窗口,也是把握行业发展趋势、制定相关策略不可或缺 <详情>
2024-02-04 14:30:14
新闻动态 限价近四千万 河北数据中心怀来园区暖通设备招标
1月31日,河北数据中心怀来园区暖通设备采购项目启动公开招标,最高限价3955.33万元。 <详情>
2024-02-02 16:24:48
机房建设 6000机柜 中银保信乌兰察布数据中心一期竣工验收
项目位于乌兰察布集宁区察哈尔高新技术开发区,处于全国一体化算力网络内蒙古枢纽节点—集宁大数据产业园 <详情>
2024-01-25 10:12:03
国内资讯 靠“商贸批发”广为人知的义乌也要建数据中心了
2023年4月25日,浙江中国小商品城集团股份有限公司(简称“小商品城)宣布,与浙江联通将合作建设运营“一带一路”国际数据中心。 <详情>