9月27日,由开放数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016ODCC开放数据中心峰会”在京隆重召开。在下午的ODCC数据中心解决方案分会场上,ODCC监控模块项目经理、腾讯IDC平台部高级工程师周洛,发表题为"互联网数据中心-基础设施监控系统-南北向规范"的演讲。以下是演讲全文:

 

周洛

ODCC监控模块项目经理、腾讯IDC平台部高级工程师 周洛

很荣幸ODCC给我这么好的平台来发布新规范,也感谢大家来到北京聆听我的汇报。我今天演讲的主题是互联网中心基础设施监控系统南北向规范。我的分享分为四块,第一是成果简介,第二南向规范,第三北向接口,最后分享一下南北向规范发布以后对这个行业所带来的一些变化。

第一块,简介,先介绍一下我自己,我叫周洛,2001年毕业,毕业以后从事开发,我2014年加入腾讯,负责腾讯事业中心制作化平台的签订规范的制定和推广,2014年加入ODCC,2015年作为项目经理启动南北向规范的项目编写。

从这张图我们可以看到南北向规范在ODCC的位置,是位于数据中心工作组下面的监控模块项目组,那我们这个规范参与的人有哪些,我们的组长是朱华,他是这个规范的发起人,成员有我,还有百度颜小云、百度李忠科,还有腾讯,牵头单位有腾讯、百度、阿里巴巴、中国移动,参编单位有19家,支持团队有3家,均是我们BAT一线的运维团队。在这里也感谢ODCC的领导,也感谢项目组成员的付出,感谢牵头单位参编单位大力支持,没有你们就没有今天发布的成果,谢谢。

那我们今天发布的是南北向规范,南北向规范是什么?我们可以通过几个关键词进行总结,一个是互联网数据中心,就是以BAT为代表的互联网企业数据中心代表,它的特点数量不多,但是体量特别大,还有基础设施以空调和UPS为主,监控指标就是指这些未监控设备提供的策略清单,比如说送风温度,监控系统是用于监测基础设施运营状态的,比如说空气的CM-Desk,北向接口就是上层系统所提供的接口,在这里特指我们监控系统和企业平台之间的对接接口。那了解了这几个关键词以后我们就很容易理解这两个规范,南向规范就是定义互联网数据中心中风火水电为基础设施应当向监控系统提供的策略清单。北向监控定义是互联网数据中心用于监测风火水电基础设施的监控软件,与我们系统上层平台系统之间的接口。

那现在这张图展示的是典型的互联网数据中心的监控架构,最底层是我们设备厂商所提供的基础设施层,中间层是我们监控厂商提供的监控,那最上层是我们企业自研的企业自动化管理平台,我们南向规范是位于基础设施监控系统层之间,它定义了基础设施应当向监控系统所要提供的侧点,包括每个侧点的单位、名称、精度、值定义等等,我们的北向系统位于监控系统和自动化管理平台之间,定义了监控系统和自动化管理平台应当直接遵守的通信协议、数据格式以及功能集。

我们为什么要做南北向规范,随着互联网+的发展,作为互联网业务基础数据支撑的数据中心得到了飞速发展,为了确保数据中心可靠高效的运行,那以BAT为代表的互联网企业都在建立自己的自动化企业管理平台,但是我们在建设的过程会发现互联网数据中心行业缺少相关规范,接口五花八门,数据也是千差万别,即使是相同的设备不同的厂商生产的设备和策略清单也是截然不同,这些问题就给我们企业平台建设带来了巨大的挑战,具体表现为:

第一点,我们的企业开发人员不得不耗费大量的数据做海量数据的是适配以及接口的开发,根本没有时间聊业务,以至于互联网数据中心业务导向快速部署的基本特性是相违背的。

第二个是关键系统的缺失导致我们自动化规模无法开始,给安全运营带来巨大的风险。基于这两点,我们项目经过半年的交流,项目运维规范接口和规范程序,我们希望通过规范接口规范数据构建适合互联网互联数据中心发展的基础平台,为自动化铺平道路、打下基础。

另外一个是希望规范我们接着口头和数据,来开启我们行业新的合作模式,使整个产业链实现共赢。那南北向规范有哪些重要里程碑,我们可以看2014年11月项目组成立,2015年7月启动南北向规范的编写,2015年9月我们的北向项目在CCIC上进行立项,2016年6月南向在CCSA立项,标志着我们南北向规范正在向行业标准迈进。2016年9月也就是今天,在ODCC发布我们的新的规范。下面有几个图,这就是我们BAT一些数据中心,我们的规范正在这几个数据中心进行落地。

第一部分的最后,我们简单回忆一下这几个数字,14个月,23家团队,23家公司,3个运维团队,共90人,224人次,经过11次全体会议,2次电话会议,1次视频会议,编织出我们互联网行业第一个监控规范。下面这些是我们的签到表,也感谢项目团队的辛勤付出,感谢参编单位的大力支持。

第二个,我们看一下我们南向规范具体有什么内容。首先是我们说做任何事情都要有原则,我们定的项目规范也要有原则,第一个基本的重要原因,就是我们在收录我们设备的清单的时候我们只会受用户关心的侧点,可有可无的不会收。第二个是点位顺序布线,我们定义的这个规范厂家在实现的时候不需要严格按照我们规范中的策略顺序来实现,不限顺序方式就是你可以使用创投也可以使用TCD,不做通信方式的限制。通信协议不限制,你自定义的形式都可以,我们只关心数据怎么来。通过前四点我们也可以看到,对于大多数厂家来说他们几乎不对自己的产品做任何的改造就可以保证我们的南向规范。我们南向规范的核心内容就是我们会定义互联网数据中心所有提供的基础设施应该提供的清单,其中每一个单位、名称、单位包括这个设备。同时我们的规范还会有3个辅助内容,会给设备分类,给一个唯一的ID,同时我们还会出一个标准单位的参考,因为以往我们发现有的厂家,举例子,比如千瓦是单位,以往有的厂家可能把千瓦写成两个大写的KW,或者两个小写的KW,正写的应该是小写的K大写的W。

接下来我们看一下南向规范有什么优点?它是最新、全、简单、易落地,第三是最实用,因为我们的南向规范是由我们一线的运维团队和国内最优秀的厂商一块构思出来的计划,当然规范也有缺点,它比较稚嫩,毕竟是刚刚新发布的规范还缺少项目的洗礼。任何事情都有一个成长的过程,我们希望大家能够去了解这个规范去使用它,去完善它,让它在互联网的行业中生根发芽。

我们的南向规范是如何组织的?我们的南向规范在结构上分为三级,第一级是专业,比如我们看到有强电专业、弱电专业,对于每一类设备有对应的Excel文件,对于每一个设备分类都是有的,对于每一个具体的设备我们对应一个Excel文件中的一个页,最终在生成页我们会对这个设备应该提供的填表进行一个定义,这个图上我们可以看到我们对它的点位包括DO亮做一个明确的定义。

第三部分简单介绍一下北向接口,也是三个原则,第一个是简单,大到至简是我们所追求的,第二个,我们希望我们的平台是可以跨平台、跨语言开发的,我们希望我们的标准是使用标准、开放、开元的基础,比如在这里我选择的是HTTP+JSON的组合,这是我们互联网行业最为流行的组合。

第四个易用,就是希望我们的规范是易于学习、易于开发、易于使用的,希望我们的北向接口足够的高效,能够符合互联网的运营需求。

5组指令集分别是连接、配置、数据、告警、控制,连接是建立保持心跳断开,配置我们定义了企业平台如何从监控系统拉取配置,这些配置是包括系统中包含的一些设备,哪个设备包含哪些侧点,以及他们具备哪些属性。数据管理我们编辑了企业如何从在线数据获得数据,定义了互联网企业平台如何从监控系统去获取告警,最后一个是控制管理,我们定义了企业平台如何从监控系统,如何通过监控系统去对底层的物理设备做控制。

我刚刚提到了我们的北向接口是HTTP+JSON是抱有质疑的,我们进行了测试,结果经过我们项目组评审是满足我们黄连企业自动化平台的要求。

最后我们起来畅想一下南北向规范发布以后将会对我们的行业带来哪些变化。这张表第一列是我们行业的各种角色,设备厂商、监控厂商等等,第二列和第三列是我们南北向发布以后对未来产生的变化,对于业主可能过去不知道要监控什么,但是未来将变为有章可循,对于承建方过去扯皮是常态,但是未来会更明晰,对于设备厂商过去是绞尽脑汁猜用户的需求,但是未来需求非常明确,省时省力。对于监控厂商,过往是要面对数据杂乱、需维护众多接口,未来我们数据将会接口统一。对于企业开发,我们过往需要把大量的精力放在对接、无法及时响应业务需求,未来我们的对接会变得很简单,新需求分分钟可以上线。对于运维人员过往经常抱怨这么重要的数据和功能都没有,我们怎么用啊?未来我要的功能都会有,需求响应也非常快,非常赞。

由此可见,我们南北向规范将会给整个行业带来立竿见影的变化,它所起到的作用也是积极向上的,起到的效果也是双赢共赢的。

最后,我们想说,规范是简单的、实用的,效果是有效的、共赢的,那我们有什么理由不去用它呢?谢谢,我的演讲完毕。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-08-26 09:43:08
UPS电力 UPS电源蓄电池短路的原因有哪些?
UPS电源蓄电池短路的原因有哪些?是蓄电池短路了还是UPS主机短路了?UPS电源蓄电池短路系指铅蓄电池内部正负极群相连,蓄电池短路会产生极大的电流,一般会把短路导线烧断, <详情>
2019-08-26 09:11:00
运维管理 运维难度“更上一层楼”—不存在的!
如今,数字化时代已经到来,数据中心规模和容量都在成倍增长,随之而来的运维管理复杂度和难度也越来越大,从脚本运维、工具运维到平台运维演进至今,人力已接近极限,随即 <详情>
2019-08-26 08:10:00
云技术 AWS 日本出现大规模故障
日本亚马逊AMAZON AWS云端伺服器自2019年8月23日中午开始出现大规模异常,许多使用相关服务的日本手机游戏纷纷出现连线异常状态的lag或是读取时间过长,部分游戏甚至完全无 <详情>
2019-08-23 17:56:25
互联网 AICC2019计算与基准测试,听听阿里、寒武纪、MLPerf、Spec、Intel都怎么说
近期,AI芯片的设计,开始朝着专用芯片的方向发展。“专芯专用”,在特定领域的算力,可以呈现出几何级别的增长,动辄实现数十倍到上百倍的提升。IDC和浪潮联合发布的《2018-201 <详情>
2019-08-23 16:45:16
机房建设 评估新的数据中心基础设施应该问的5个问题
数据挑战与其机遇一样丰富。如果处于大多数公司的位置,那么可能会在尝试确定如何提取实时洞察力的同时,数据爆炸式发展超出组织的管理速度。而且,对于面临类似挑战的许多 <详情>