我们知道,作为整个IT架构最底层的关键基础设施,数据中心的设计是一件非常严谨的事情。

冗余,这两个字贯穿了数据中心每一个子系统的设计过程,是高频关键词。

得益于2N或N+m的完美冗余,数据中心像一个冷冰冰的钢铁巨人一般,变得日益健壮。

地震可以有,只要烈度不超8,能扛;断电、停水,即便两个一起来,两三天内,能扛;台风,有预案,能扛;雷暴,有防雷接地系统呢,能扛……

至于设备级的故障,那更是数据中心设计中“并行维护”的起步要求,甚至允许多台设备故障神奇地同时发生。

数据中心如何智能化运维管理?

数据中心是具备自愈能力的

病毒进入人体,就是考验人体自愈能力的时候。自愈能力不够,又没有特效药帮助,只好选择送人头;自愈能力强,病毒不知不觉就被干掉了。

那么,既然有这么强大的自愈能力,数据中心还怕什么呢?

当然怕。最怕那种不在应急预案覆盖范围内的、起源于外部的不可抗力事件。

五年前发生在天津的812大爆炸,以及眼下的新冠病毒之战,就属于这类事件。

关于812事件详情这里就不再赘述了,有兴趣的同学可以通过《没有观众的裸奔》重温一下痛苦记忆。天津数据中心离爆炸核心不到1.5公里,受到极大破坏。

爆炸声落,数据中心内即发现8处故障点,其中包括冷水机组停机、爆管、地下室水浸这样的严重故障。

只要应急预案能覆盖的场景,处理起来就可以有条不紊。80分钟后,8处故障全部处理完毕,各系统运行平稳。当然,光有预案还不够,就像我们在事后反复强调的,应急预案和平时不折不扣的演习,关键时候才是救命稻草。

第一时间处理好故障,是数据中心的本分,也是其自愈能力的展示舞台。但第一天还远不是高潮,随后发生的一系列事情,才让这一天天的值守,变得特别漫长。

绝大多数情况下,数据中心依靠自身的自愈能力来消除风险,是不需要外部帮助的。但到了“大敌当前大局为重”的关口,一旦事件升级,当政府不得不上门来“帮助”你时,问题就来了。

清场之后,偌大的天津数据中心没有一个人影;我们经常挂在口边的“无人值守”,陡然一下成为了现实。

此情此景,如何自救?很显然,有一个完整、精确、随时随地可登入、允许关键运行参数远程修正的数据中心监管控系统,此时显得多么的重要……此处省略666字。关于当年天津是怎么做的,可参阅上述文章《没有观众的裸奔》。

天津数据中心虽然扛过了812的考验,但也暴露出若干问题。尤其是无人值守的全面管控能力。

我们常说,教训比经验更值得珍视。经此一役,腾讯在数据中心自动化系统方面加大投入,集中优势兵力很快推出了“腾讯智维”监管控平台,并开源共享给全行业。详情请了解《助力产业互联网升级 腾讯推出数据中心智慧运维全栈解决方案》。

因此,在年前新冠病毒还没有真正爆发的时候,我们在全国每一个数据中心,已经提前做好了无人值守的准备。极端情况下政府干预清场后,可能会有一段不短的时间需要启动“无人预案”。

类似的极端场景,可能还包括化工厂泄漏、监狱暴动等只能靠想象预判的不可抗力事件。

这一年的春节,每个中国人都过得不凡。

丑陋的半兽人“新冠”携病毒大军兵临城下,全国的数据中心和中土所有部落一起,都在打一场保卫战。

信息报备、100%跟踪、无死角消杀、内外物理隔离、一级无差别严控……只要能想到的,只要病毒有可乘之机的,一定可以做到极致的严防死守。

但也有些地方可能被我们忽视了。比如数据中心值守人员的心理状态。我们说数据中心的自救,除了无人值守能力,其实也包括心理干预。

尤其是时间越拖越长,保卫战变成巷战,甚至进一步变成持久战的情况下。外面谣言满天飞,里面的人这一天天的,就会变得焦虑、敏感、消沉。

当然,“咱们运维团队心理素质过硬着呢,请全国人民放心”。这是两回事。“扛”是决心,可对数据中心来说,主观上要保证团队每一个人的健康完好,客观上更要保障数据中心的安全运行;毕竟,人在焦躁状态下,很容易出现误操作……

至于怎么做心理干预,我党我军有很多行之有效的办法,就不在这里班门弄斧了。该政委上场了。

战疫之下的数据中心自救,自然是各有各的做法,各自各精彩。腾讯数据中心友情提醒各位同行:做好无人值守技术准备;关注值守人员心理健康。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2020-03-02 18:16:18
国内资讯 阿里董事局主席张勇:新一波数字化浪潮正到来
眼下全国各地正在陆续复工复产,阿里巴巴在调研走访小微企业时发现,影响它们成本中排名前三的分别是房租、人工和贷款利息。 <详情>
2020-03-02 16:52:00
国内资讯 “零接触、零感染”:【防E宝】助力数据中心复工复产顺利开展
CloudBest联合中国IDC圈推出了【防E宝】,为疫情期间的复工企业提供健康打卡,来访登记等服务。免费使用,扫码即时开通! <详情>
2020-03-02 14:19:55
云安全 助力“网格化”疫情防控 亚信安全为远程不停工提供“三可信”服务
在新冠肺炎疫情的影响下,网格化管理成为疫情防控的“最后一公里”。但是,由于缺少必要的移动终端安全防护技术,网格内所涉及的大量用户隐私数据 <详情>
2020-02-28 20:17:12
大数据资讯 国务院联防联控机制举行新闻发布会 利用大数据技术全力支撑复工复产
当前我们正全力以赴利用大数据技术支撑复工复产的各项工作,包括支持复工复产目前的态势、人员的流动情况、物资供需的对接、用工对接及运输的调度。 <详情>
2020-02-28 19:47:57
云资讯 百度智能云2019Q4营收两位数增长,多项疫情防控产品有望规模化落地
连续五个季度高速增长,多项AI服务强力支持疫情防控,百度智能云在百度2019财报中表现依旧亮眼。 <详情>