9月27日,由云计算发展与政策论坛、数据中心联盟指导,开放数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016ODCC开放数据中心峰会”在京隆重召开。在下午“ODCC测试认证”的分论坛上ODCC 企业级SSD 测试项目经理、腾讯服务器平台中心系统工程师曾梓恩发表了题为“海量业务的SSD 质量保障”的演讲。以下为演讲全文:

曾梓恩

ODCC 企业级SSD 测试项目经理、腾讯服务器平台中心系统工程师 曾梓恩

这个PPT准备的非常好我自己觉得,因为当时我在想翻页的时候我必须要测试一下,我现在都翻到这边来了,翻回翻试一下。这带来出来一个很重要的意义,测试其实在生活中无处不在。因为对于这个世界的探索人类都是非常渺小的,无时无刻我们对未知世界的探索就是一种测试,这是今天我想带来的一个思想。我自认从业时间不是很长,在众位专家面前谈技术觉得有点班门弄斧,今天分享的主要是思想,主要是我自己个人工作中的经验。

首先大家看一下这个题目,这个题目很明显就是为了应付今天这个高大上的场合编造出来的。但是编造完之后我自己有一个思考,其实海量业务+SSD+质量保障这三个东西,其实就是我们日常工作当中最常见到的。首先看一下自我介绍,我叫曾梓恩,是在深圳腾讯,网络平台部服务器技术组工程师,我们部门主要是负责新产品新技术的引入,就是服务器相关的,主要是硬件方面的东西。买硬件实际上就像上菜市场买菜一样,必须还得先挑选。一个新媳妇儿入门,往往先看她会不会买菜,这是非常重要的。所以说对于业务来说我们是帮忙买菜的,业务是大厨,我们买回来的东西好不好对于业务实际上非常关键。

我们先看一下题目,为什么海量业务这个东西这么关键?腾讯前几天已经成为了亚洲估值市值第一的公司,实际上跟海量业务分不开。我们公司大概有一千多项业务部署在我们公司超过50万台服务器上面,这个在国内数据中心的体量应该是大的,这个数量是截止到2015年的Q4。随着过去三个Q,随着云的大力发展,现在这个数量应该是又到了60万多,这个就不方便给大家透露。首先业务种类是一千多种,设备数量也非常大,而且还有这几个爷爷。我们在内部是作为支撑部门,我们把这几位都叫做祖宗。一个是微信、QQ、英雄联盟、云以及我们的门户业务,这些业务在腾讯营收方面占非常重要的地位,如果任何因为设备故障出现了问题,而导致营收下降,最终的责任都会在于我们硬件支撑平台这边。所以为什么我们对海量业务心怀敬畏,就是因为他们是赚钱的主。

看完海量业务之后,为什么还要把题目SSD给扣出来?因为SSD我们其实用的也非常多,我听前辈说过一个故事,在2006、2007年左右,是英特尔的五位高管来我们公司说给我们介绍SSD。这个会开完以后,我们的人说要在数据中心中用,英特尔的老外说我以为你们是卖PC机的,现在是用英特尔的SSD放在数据中心去吗?那时候我们刚刚开始做搜索业务的时候,我们就真的是把SSD落地到搜索业务上面去,目前第一块买来的SSD还在数据中心运转,因为那时候SSD的寿命都非常长,当然成本也非常贵。

SSD在腾讯的发展实际上是一个机缘巧合,因为那时候SSD也不是大规模使用,只是一个尝鲜者引入进来。再分享一下SSD新技术的应用,腾讯是第一个在数据中心中大规模使用。因为在去年的时候,我们已经开始联合英特尔最早推出的(英文)系列的盘我们已经放到数据中心中使用了,用来取代过去运维非常麻烦的传统的(英文)SSD。我们看到其实SSD在腾讯说的这么天花乱坠,用的多么多么好,实际上在运营中会出现很多问题,丝毫不亚于低空飞成的洼地。SSD也会有一个很强大的屏障挡在我们面前,就是运营上对技术要求是很高的。首先是容量性能上的差异,有时候我们做完设备选型放在池子里,业务来选的时候会发现都是SSD为什么用在这会差不多,另外一种差这么多?第二是容量上,因为现在的产品非常多,不一定每一种供应商的产品都能达到我们的要求。还有寿命,寿命是不可描述的一个很奇怪的参数。为什么有些业务能用到死,有些业务完全觉得SSD是一个无穷无尽的东西,这跟业务是非常相关的。

而说了这么多,美好的东西都是来自技术引入,而痛苦都是在运营当中。我想问一下在座有人做新技术的?干新技术的事情都是充满激情,凡是涉及到运营大家都会觉得非常难受。所以我们干技术工作的时候,必须要帮运营兄弟们考虑到实际应用中怎么减轻他们的工作,减少他们的工作时间,让他们回家陪老婆。

如何解决?其实这页PPT并不是我写错了,就是这么一个简单的事情,如何解决?我们通过测试就可以解决很多不必要产生的问题。刚才线缆测试那位同事分享的东西我觉得非常对,其实一个很简单的测试动作在入场前把它测试完之后,完全就没有后面的问题。我加了一句,这是贯穿SSD生命周期的测试活动,我说一下腾讯是如何伺候五位爷爷的?

首先先看一下测试策略,简单分成几种,一个是组件测试,一个是产品测试,还有一个是用户测试。这三个层级分别是底层、中层、高层。简单来说组件测试,我会把非常底层的东西,或者某一个单个功能去做测试,这个测试相当于非常底层、研发的测试活动。产品测试是ODCC最常见的测试用例都是在这个里面,它会对整个产品做一个灰盒子的测试。用户测试这个就可能是非常高层次的,这个用例也非常多。比方说我们会针对一个最近新出的一个项目,如何从(英文)里面快速把数据导到CPU里面,是一个高性能计算的软件框架,会对(英文)设备进行不一样的读写,我们会去测试这种业务系统上面这个东西是否好用?是否能用?

另外,用户测试有些用户会去把不同大小SSD格式化成一样的可见容量,这时候都是我们业务自己管的,都会归到业务系统里面去。一句话讲完,从底层到高层每一个阶段都要进行不同的测试。

再看一下生命周期中我们是做了什么?首先很简单买菜回来之前我们要先试吃,去超市。选型的时候我们会要求厂商提供各种各样的比较深层次的测试数据,另外还会进行产品测试,这个是由我们自己技术团队负责的。另外我们会联合用户去部署业务,比方说我们会把(英文)团队的软件拿过来,或者说联合他们去搭建一个测试环境,最终的目的并不是为了测试这整个系统,而只是为了测试一款产品,而部署业务这个东西是好的一个方法,并不是一个拿大炮打蚊子的行动。后面到工厂生产这就非常关键了,这就是为什么腾讯在质量保障上付出这么多,主要是蓝色这部分。因为我相信橙色这部分每一个公司都会做到,蓝色这部分在工厂生产的时候、我们交货的时候,工厂生产产线上我们已经把测试系统推到(英文)厂商产线的前端,每一台出厂的设备都要通过我们的测试系统进行性能的确认,以保证交货的质量、数量,还有一些其他的配置是正确的。交货验收,当机器拿到IDC上架之后,内部的运维系统也首先会对收到的设备进行验收。运维团队拿到验收之后的收件会把操作系统还有各种各样的配置往上填充的时候,也会进行一个配置检查,在某一种OS上面各种监控功能是否正常,然后看一下设备的各种版本有没有出现问题?

最后,交到业务手上,业务部署、业务运维系统也会对硬件进行审查。后面当运行一段时间之后出现一些故障,我们会重新返回到研发阶段这个地方,去对故障的硬件进行排查,到底是什么原因?是否是批量故障,后面再采取规避措施。退役的时候我们也不会给它检查身体,就直接扔掉了。所以整一个生命周期中我们都会进行这个测试活动,所以大家可能觉得测试是一个选项标准,但实际上没有这么简单,测试贯穿到整个生产过程,一直到它生老病死,最后也会进行这个测试。

我们再来升华一下这部分主题,我们ODCC的测试标准实际上是融合了海量业务用户的经验,比方说BAT、各家运营商。还有供应商的一些专家意见是必不可少的,各位供应商还有英特尔、华为各种各样的较大供应商来一起提供专业意见。我们形成测试标准这么一个平台之后,我们可以对上进行产品质量的保障,对产品质量保障是对于用户而言我们有大客户的背书,是会比较信任这个产品。服务质量,也是会更好地提高他们的服务质量。

我们再升华一下,因为最后我觉得大家可能已经有点累了,我们来聊一下哲学。关于测试的一些思考,其实就是对于人生的一个思考。测试首先是基于信任,因为如果不信任是无穷无尽的探索下去的,就像数学也会有一二三条公理一样,点到为止,再往下的我们交给上帝。所以信任是测试的基础,必须得信任,不然你进行不了任何的测试。而测试本身的动机就是不信任,我们之所以测试它就是因为这个东西不可靠,我不相信,我要亲眼所见才相信。所以信任和不信任之间的矛盾,就是我们对测试进行的哲学思考,这就是人生,并不是非黑即白。所以说ODCC这个标准对于大家而言,这个组织是充分信任各位供应商,我们充分信任各位工作的成果,在这个基础上会进行大量验证,来消除各位客户对于行业的不信任,我们是做这样类型的事情。希望今天的分享可以给大家带来收获,感谢。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-25 17:36:03
互联网 1—8月份,我国电信业务收入累计达11417亿元
截至8月末,5G基站总数达313.8万个,占移动基站总数的27.5%。 <详情>
2023-09-25 14:27:47
机房建设 “信力量 新可能”走进中企通信云数据中心(上海站)暨“算力中国行”上海站 活动圆满结束
在全球范围内拥有强大ICT资源的中企通信,也得到了众多如上海联合产权交易所等国内外知名企业的“青睐”。 <详情>
2023-09-25 10:19:13
国内资讯 数能相融 品牌新生|合盈数据发布绿色数能品牌—GED³
伴随着产业实践的深入,合盈数据将产业融合创新、生态可持续发展的认识总结提炼为GED³。 <详情>
2023-09-11 18:37:24
云资讯 吴泳铭接替张勇出任阿里云代理董事长与CEO
阿里巴巴公司将继续执行之前宣布的计划,对阿里云智能集团进行分拆。 <详情>