腾讯云服务中断约1小时：全球17个区域受波及、16项服务被影响_IDC国内资讯

504、接口响应报错、内部服务错误……

4月8日下午15:20分左右，不断有网友报告腾讯云出现服务异常，消息迅速登上微博热搜，话题阅读量已超90万。从网友反馈看，故障持续了约1小时或更久。

波及地区节点

根据腾讯云健康看板的信息，全球17个节点受到了此次故障波及。

中国区：广州16款产品异常、上海13款、南京11款、北京12款、成都12款、重庆11款、中国香港12款。

亚太地区：首尔10款、东京10款、新加坡11款、曼谷10款、雅加达10款、孟买10款。

欧洲地区：法兰克福11款。

美洲地区：硅谷1款、弗吉尼亚10款、圣保罗未受影响、多伦多1款（云函数）。

影响服务范围

从服务项目看，此次宕机事件影响产品包括：云服务器、消息队列CKafka版、微服务平台TSF、云函数、云硬盘、文件存储、日志服务、云数据库MySQL、云数据库Redis、数据传输服务、负载均衡、NAT网关、弹性公网IP、音频内容安全、云开发CloudBase、腾讯云区块链服务平台TBaaS等。

腾讯官方回复

对此，腾讯云16点45分官方回应称，“腾讯云官网控制台相关服务出现异常，工程师正在紧急修复中。非常抱歉对您造成的影响，若您有任何问题，请随时联系我们，感谢您的理解与支持！”

腾讯云官网控制台相关服务异常故障公告

网友用户吐槽

故障引发了用户的大吐槽：

“‘崩’了一个小时。”

“程序登不上去了，还以为自己的服务出问题了。”

“症状几乎和去年阿里云严重宕机事故一样：CVM虚拟机，RDS数据库还可以正常运行，但是管控面，特别是和Auth有关的无一幸免。”这是阿里云的人跳槽去的腾讯云么？”

“csig不是刚裁了一大批吗?这个看起来又是裁到哪个大动脉了？”

“当时阿里云崩了，销售还和客户说我们腾讯云不会崩，当时内心这个万马奔腾啊，心想了这不废话吗，都没有双十一场景，怎么崩?这下好了吧，腾讯云销售们你怎么不在客户现场笑了?是不爱笑吗?”

“降本增笑，开猿节流。”

故障原因分析

在恢复过程中，腾讯云在微博上宣布了恢复进展。17点16分，腾讯云在微博回应称整体已恢复，目前，并在官网公告称原因是“腾讯云官网控制台相关服务出现异常”。

对于故障具体原因，腾讯云表示还需“待查”。业内人士结合云计算平台的架构特点和运维经验，认为此类大规模故障最有可能的原因如下：

1.认证授权系统故障:

云平台的认证授权体系通常采用集中式架构,为所有服务提供统一的认证和鉴权。一旦该系统发生故障,会导致所有依赖其进行认证鉴权的服务不可用。去年阿里云故障的根因就是其统一认证系统RAM的问题。腾讯云的CAM与之类似,也可能是此次事故的"罪魁祸首"。

2.管控链路单点故障:

云管控面向所有用户暴露,流量大且波动大,对可用性要求极高。任何一个环节的故障,都可能导致管控请求无法被正常处理,引发连锁反应。比如负载均衡、API网关、控制层服务、元数据存储等任一环节发生故障,都可能是此次事故的诱因。

3.运维变更操作失误:

云平台需要频繁进行版本更新、扩容、配置变更等运维操作。如果变更操作设计不当或者失误,可能酿成重大的可用性事故。去年阿里云事故的直接原因就是研发人员的一次错误变更。

4.网络故障或异常:

从物理网络到覆盖网络再到服务网格,云平台网络错综复杂。网络异常可能导致部分请求延迟、丢失,引发服务异常。网络硬件设备故障、路由错误、防火墙规则异常等都可能是诱因。

5.软件系统bug:

云平台软件系统错综复杂,难免存在bug。若核心服务或组件存在关键bug被触发,也可能导致此类事故。比如死锁、内存泄露、并发冲突等。

从网友评论看，更多的是表达了对阿里云、腾讯云等国内云企业太过重视“降本增效”而忽视稳定性的担忧。或许在“拼价格”这条道路之外，国内云厂商应该更多考虑拼技术、拼稳定性。