9月27日,由云计算发展与政策论坛、数据中心联盟指导,开放数据中心委员会主办,百度、腾讯、阿里巴巴、中国电信、中国移动、中国信息通信研究院、英特尔承办的“2016ODCC开放数据中心峰会”在京隆重召开。在下午“ODCC测试认证”的分论坛上ODCC天蝎测试项目高级技术顾问及企业级HDD测试项目经理、阿里巴巴服务器质量专家刘星海发表了题为“硬盘在大型数据中心的应用及质量保证”的演讲。以下为演讲全文:

刘星海 (2)

ODCC天蝎测试项目高级技术顾问 刘星海

各位在座嘉宾、专家大家好,我是阿里巴巴服务器团队的质量保障团队的刘星海,现在在ODCC测试认证工作组,现在是在硬盘测试认证的项目经理这个岗位上。今天主要是想跟大家分享一下我们在海量的数据中心的硬盘使用过程中,我们的一些经验、遇到的问题,以及一些相应的应对措施。我们先看一下硬盘在现在的IT行业里面的市场规模,这里统计了最近这几年全球所有的硬盘出货量,这里包括了消费级的,台式机的,包括了移动端的,也包括了企业级数据中心的所有产品。从图上看起来,从2010年开始每一个硬盘整体的从出货量是在逐步地下降,这个跟SSD的出货量对比看起来是比较明显的。从2010年以来,SSD全球出货量是在每年以比较高的增长率在增长,直到2015年SSD整个出货量只是相当于HDD出货量的一小部分,16%左右。但是整个行业对于SSD将要在接下来这几年仍然会保持持续的高度增长,持有很大的信心,这一点是跟SSD和硬盘这两个不同产品的技术特点包括加工工艺、市场、商务的这些原因都分不开。但即便是这样,在硬盘的市场里面,企业级的应用包括在数据中心里面的硬盘饱有量,在统计周期里也是保持一个增长的态势,这个得益于现在各个数据中心以及数据中心云服务业务的高速增长。

硬盘其实大家都用的比较多,不管是在自己使用的笔记本电脑,还是以前自己传播电脑,包括现在在我们工作用到的服务器或者笔记本电脑。这里大概会介绍一下硬盘的基本原理和构造,这些基本的原理和构造决定了这个硬盘将来在我们实际使用中,特别是在大规模的数据中心环境下使用中,会遇到什么样的一些情况和问题,以及我们怎么去应对这些情况。

这个是硬盘背面看过去的照片,这是一个企业级(英文)的硬盘。拆下来正面看起来是这个样子,中间的是整个硬盘控制的核心,这是拿下来之后硬盘的内部构造,上面是盘片、主轴马达、过滤器、硬盘不工作时的停靠区,以及其他的结构。从这里看出来硬盘是一个电子和机械的高度结合的整体,它其实也是一个小的系统,而且是一个精密度非常高,对于设计和加工的工艺要求非常高的这么一个产品。后面我们还会有一些详细的说明。

这里讲几个基本的硬盘构造的概念。第一张图显示的是同一个盘片上硬盘的磁道的分布,它是以一个同心圆的方式分布在同一个盘片上,从里到外分为不同的磁道,在同一个磁道上又细分成多个扇区。这个例子只是一个事例,其实在同一个磁道上远远不是这样。磁道的密度是指在每一英尺空间里面可以放得下的磁道数量,这个不是最新的设计,现有的技术远远超过这个值。

最后一张图是关于磁道的形状,我们只知道它是一个圆形的,但实际上设计或者生产出来的硬盘磁道的形状跟实际上理论上的圆形是不一样的,匹配不上,通常都会有一些偏心或者稍微有一点点呈椭圆状。这一点在后面,可能实际使用中会遇到一些现象跟这个有关系。

硬盘在工作的时候,磁头是在盘片一侧呈钟摆式运动,在两个磁道之间。所以右边这张图可以看到,红色和白色的是写头和读头,蓝色磁道的相应位置是会随着它们位置的变化而产生变化,这点对磁头写的精度和信号的抓取会产生影响,而且也会随着磁盘的环境变化而产生变化。

在硬盘工作的时候,磁头是悬浮在盘片的正上方,但是这个距离或者高度我们叫做飞行高度,它是由空气动力学来决定的。其实就是说在高速运动的时候,这个磁头相对于盘片的状态有点像是一架飞机,飞行器相对于地面或者相对于空气的状态,它是靠空气动力学产生下降的浮力,并且精确地控制离盘片的距离来工作的。

现在通常的硬盘设计里面磁头离盘片在工作的时候的距离,通常是纳米级的,通常是2纳米到10纳米之间,有一个动态飞行高度的技术。所以在实际工作时,高度会在2纳米在10纳米之间变化,这个是通过在磁头上有一个加热的单元来实现,通过磁头的热胀冷缩来实现。现在主流硬盘的转速是5400、7200、10000、15000。相对速度是大约每小时100公里以上,这是一个非常惊人的高速。

如果等比例地把磁头跟盘片之间的尺寸、体积放大,在工作时相当于有一架飞机在离地面不到1厘米的高度上,以每小时100万公里的速度在飞行。同时它在飞行的时候还要准确地按照指令读取到地面上某一个很小地址的一段内容,或者从地面上抓取某小一段地址的内容,这对于电子和机械来说都是非常复杂的任务。为了实现这么一个功能,在硬盘内部需要有一个定位系统帮助磁头和盘片上的磁道扇区准确地找到它的位置,这个东西叫做(英文),是一个伺服的环路。磁头在工作的时间有可能偏离盘片的位置,盘片在工作的时候也会偏于理想层面,会偏于磁头,所以两方面都会影响磁道定位。这部分模块的作用是在发现它们偏离理想位置的时候把它们拉回来。

刚刚讲了通用硬盘的结果和一些原理,下面介绍一下数据中心使用过程中遇到过哪些硬盘的故障?通常电子元器件失效的曲线是由这么几个部分组成的,有一个左边这个红色的部分,这个线叫做早期的失效率,最早的时候比较高,逐步地降低。中间这一根绿色的线是随机失效率,这个是电子件固有的一个失效率,所以它基本上不随着时间发生变化,通常这个是跟半导体、环境,其他设备的一些辐射或者环境空间里面的电子的干扰产生的。这一个红色翘尾的曲线是老化的失效率,这个是由于电子设备、半导体器件和机械器件在长期使用过程中老化产生的。

我们统计了一下在大型数据中心里面硬盘的失效率占所有服务机内部失效率的比例,这里统计了多个大型数据中心超过5万台服务器以上的样本空间,我们发现有约三分之一多一点的故障是由硬盘引起的,这是我们数据中心的质量保障主要工作对象。在同样的统计样本空间里,我们把某一年每一个月的故障率做了一个统计,看上去并不是一个,跟浴盆曲线还是有一些不一样。把同样的样本空间里面的硬盘每一年的故障率统计出来,发现它随着时间是逐步地递增的。前面三年故障率相差不大,在后面两年可以看到显著地上升。通过我们分析这些很多失效硬盘的样本来看,通常常见的很多硬盘故障是无法识别硬盘,主机看不到硬盘,或者主机在正常工作中突然发现硬盘无法识别了。第二种是在硬盘正常工作时读写发生了一些错误,产生了很多问题。第三点第四点其实跟前面两个有很多是重叠的,很多时候无法识别硬盘、读写的错误都是因为第三第四这两种故障造成的。

我们举几个例子,通过对故障硬盘的分析发现,PCBA有很大一类是因为PCBA功能发生了问题,比如说这个硬盘是有一根信号线断了,导致整个没有办法工作,系统识别不到硬盘。这个问题是我们对这个盘片拆开做了分析,发现在这样一条线是同一个Track上不同的(英文),有一条很长的划痕。这个图是硬盘根据磁记录从盘片上恢复出来的示意图,它可以看到每一个Track正常的跟不正常的磁介质情况。磁头跟盘片在使用读写过程中发生了碰撞,导致盘片被刮花了。

接下来一个类似的问题是磁头跟盘片之间有碰撞的痕迹,有杂质的颗粒和磁头掉下来的碎屑,磁头也有可能损坏了。

还有很多是IO Error,有一类我们通过分析看到是硬盘表面存在一些颗粒或者非常小的,甚至是有指纹,当然不会有人用手摸,就是说有指纹这样的东西也会对磁头的飞行高度产生影响,导致信号强度降低。比如说目标高度是多少?受这个影响它的高度抬高了,读写信号的强度降低了,会导致出现IO的错误。

还有一个有意思的现象是在实际机房使用过程中,我们在两个不同机房分别发现了类似的现象,有一个机房设备发生故障,有告警的设备响起来了,它工作的时候频段是很高的,高频的噪音传导了相临机柜服务器硬盘上面,导致了盘片跟磁头发生了偏离,产生了读写的错误。然后告警消除之后,磁盘读写的错误自动消失了,硬盘没有造成不可逆转的错误,有可能恢复正常。

在某一些工厂的测试中,我们会有一些对于盘片磁介质的一些压力测试,在反复读写某一个区域的时候,会因为磁泄露的效应会使相临的区域磁记录被改写。这是一个水平的,现在很多技术都已经变成垂直的了,但是这个原理是类似的。它导致了相临磁道的内容被改掉了,所以读出来会出现错误。

这些故障产生的很多原因跟硬盘的一些结构是有些关系的,而且随着时间会有一些放大。比如说硬盘的马达它有润滑液,这个会蒸发,而且会受到温度、湿度的影响。盘片和磁头这些结构件会有老化、磨损。硬盘内部的一些高分子材料包括主板内部的高分子材料产生的挥发性的颗粒,这些分子大概是在微米,但是对于纳米级的硬盘内部结构来说是一座山一样。还有一些是腐蚀,空气有一些有害的腐蚀性气体会损害PCB板。前面是硬件的故障,软件的故障也有,比如说长时间反复读写某一个特定的磁道,会造成漏磁,导致读写错误。对于这些我们会有相应的改善措施,机房的环境、空气的净化程度,可以缓解这些我们遇到的问题。

这里讲的是盘片磨损的原理,在高速飞行的磁头跟盘片的表面,它产生的空气浮力受到了温度、湿度以及气压的影响,所以在不同情况下会有不同的工作情况、工作高度,这些会产生一些我们刚才说到的问题。腐蚀性气体有一些是因为大分子对于磁头来说尺寸相对比较大。

总结一下对于硬盘可靠性或者故障率有两个因素比较关键,一个是外部环境,一个是工作负载。我们有很多业务,他们对于磁盘的使用情况和IO特征是有很大差距的,搜索业务跟其他的一些,像普通的云业务或者存储业务,写同样的或者写接近的数据量它们对于磁盘的影响是不一样的,这个不是我们实际数据中心的结果,但这是一个行业的分析结果。蓝线跟红线是相同级别的写入量,但是因为它的IO模型完全不一样,导致硬盘的可靠性和故障率也是差别很大。这是硬盘跟SSD长期故障率的对比,SSD写的寿命达到以后会上升,但是HDD没有这个限制,这是原理上的区别造成的。

关于硬盘质量保证的一些简单介绍。在硬盘研发的过程中,硬盘像服务器一样也是一个系统,也可以分成通常大家看到的EVT、DVT等这些阶段,在不同的阶段厂商也会做功能、性能、气侯、结构、机械等方面的各种各样测试,来保证硬盘的设计规格以及加工生产的余量。

在前面我们看到统计了某一年硬盘12个月的表现,其实并没有明显的浴盆曲线前一段的出现。在工厂会对污染物、磁头盘片质量、读写功能、供电做了大量筛选。在实际数据中心使用过程中我们有实时的监控系统对于线上海量硬盘的故障进行实时监控,厂商对于我们监控的系统也提供了很多贡献,很多自己的建议,有相应的一些参数或者是监控方法来帮助我们完善监控的模型。其实主要是有两个点,一个是硬盘的响应时间,这个可以有一个标准的参考值。还有一个是典型的工作负载,IO的模型。同时还有SMART日至中一些错误的信息。同时硬盘厂商也会有一个建议的使用环境以及使用负载,我们会根据数据中心的这些实际环境,温度、湿度等来结合厂商的建议参数预测以后的长期失效率水平。

有一个小的视频请帮我放一段,这个是国外的一些数据中心的工程师在他们的产品上做的实验,跟我们刚才在机房观测到的高频噪声对硬盘的影响也是类似,大家可以看一下。

这个人在用一个软件对他的系统做一些性能测试,上面这条线看起来是硬盘的响应时间,他给每一个磁盘标了一个标记,可以知道自己在测的是哪一个磁盘的数据。他现在对磁盘大叫,这个磁盘的(英文)水平发生了比较大的变化。可以从上面和下面看到在这个时间点发生了一些性能的下降,(英文)的上升。这个跟磁盘的构造和它受外界影响的特性是比较一致的。我们通常数据中心监控很多硬盘的一些参数和选项都是这些,主要的一些错误,包括硬盘能够记录的温度、冲击值,包括我们关心业务的使用情况,IOPS的时间。硬盘的寿命预测也是根据前面这些数据,根据使用情况我们来预测长期失效率的趋势。

今天的分享就到这里,谢谢大家。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-09-25 17:36:03
互联网 1—8月份,我国电信业务收入累计达11417亿元
截至8月末,5G基站总数达313.8万个,占移动基站总数的27.5%。 <详情>
2023-09-25 14:27:47
机房建设 “信力量 新可能”走进中企通信云数据中心(上海站)暨“算力中国行”上海站 活动圆满结束
在全球范围内拥有强大ICT资源的中企通信,也得到了众多如上海联合产权交易所等国内外知名企业的“青睐”。 <详情>
2023-09-25 10:19:13
国内资讯 数能相融 品牌新生|合盈数据发布绿色数能品牌—GED³
伴随着产业实践的深入,合盈数据将产业融合创新、生态可持续发展的认识总结提炼为GED³。 <详情>
2023-09-11 18:37:24
云资讯 吴泳铭接替张勇出任阿里云代理董事长与CEO
阿里巴巴公司将继续执行之前宣布的计划,对阿里云智能集团进行分拆。 <详情>