504、接口响应报错、内部服务错误……

4月8日下午15:20分左右,不断有网友报告腾讯云出现服务异常,消息迅速登上微博热搜,话题阅读量已超90万。从网友反馈看,故障持续了约1小时或更久。

波及地区节点

根据腾讯云健康看板的信息,全球17个节点受到了此次故障波及。

中国区:广州16款产品异常、上海13款、南京11款、北京12款、成都12款、重庆11款、中国香港12款。

亚太地区:首尔10款、东京10款、新加坡11款、曼谷10款、雅加达10款、孟买10款。

欧洲地区:法兰克福11款。

美洲地区:硅谷1款、弗吉尼亚10款、圣保罗未受影响、多伦多1款(云函数)。

影响服务范围

从服务项目看,此次宕机事件影响产品包括:云服务器、消息队列CKafka版、微服务平台TSF、云函数、云硬盘、文件存储、日志服务、云数据库MySQL、云数据库Redis、数据传输服务、负载均衡、NAT网关、弹性公网IP、音频内容安全、云开发CloudBase、腾讯云区块链服务平台TBaaS等。

腾讯官方回复

对此,腾讯云16点45分官方回应称,“腾讯云官网控制台相关服务出现异常,工程师正在紧急修复中。非常抱歉对您造成的影响,若您有任何问题,请随时联系我们,感谢您的理解与支持!”

腾讯云官网控制台相关服务异常故障公告

腾讯云官网控制台相关服务异常故障公告

网友用户吐槽

故障引发了用户的大吐槽:

“‘崩’了一个小时。”

“程序登不上去了,还以为自己的服务出问题了。”

“症状几乎和去年阿里云严重宕机事故一样:CVM虚拟机,RDS数据库还可以正常运行,但是管控面,特别是和Auth有关的无一幸免。”这是阿里云的人跳槽去的腾讯云么?”

“csig不是刚裁了一大批吗?这个看起来又是裁到哪个大动脉了?”

“当时阿里云崩了,销售还和客户说我们腾讯云不会崩,当时内心这个万马奔腾啊,心想了这不废话吗,都没有双十一场景,怎么崩?这下好了吧,腾讯云销售们你怎么不在客户现场笑了?是不爱笑吗?”

“降本增笑,开猿节流。”

故障原因分析

在恢复过程中,腾讯云在微博上宣布了恢复进展。17点16分,腾讯云在微博回应称整体已恢复,目前,并在官网公告称原因是“腾讯云官网控制台相关服务出现异常”。

对于故障具体原因,腾讯云表示还需“待查”。业内人士结合云计算平台的架构特点和运维经验,认为此类大规模故障最有可能的原因如下:

1.认证授权系统故障:

云平台的认证授权体系通常采用集中式架构,为所有服务提供统一的认证和鉴权。一旦该系统发生故障,会导致所有依赖其进行认证鉴权的服务不可用。去年阿里云故障的根因就是其统一认证系统RAM的问题。腾讯云的CAM与之类似,也可能是此次事故的"罪魁祸首"。

2.管控链路单点故障:

云管控面向所有用户暴露,流量大且波动大,对可用性要求极高。任何一个环节的故障,都可能导致管控请求无法被正常处理,引发连锁反应。比如负载均衡、API网关、控制层服务、元数据存储等任一环节发生故障,都可能是此次事故的诱因。

3.运维变更操作失误:

云平台需要频繁进行版本更新、扩容、配置变更等运维操作。如果变更操作设计不当或者失误,可能酿成重大的可用性事故。去年阿里云事故的直接原因就是研发人员的一次错误变更。

4.网络故障或异常:

从物理网络到覆盖网络再到服务网格,云平台网络错综复杂。网络异常可能导致部分请求延迟、丢失,引发服务异常。网络硬件设备故障、路由错误、防火墙规则异常等都可能是诱因。

5.软件系统bug:

云平台软件系统错综复杂,难免存在bug。若核心服务或组件存在关键bug被触发,也可能导致此类事故。比如死锁、内存泄露、并发冲突等。

从网友评论看,更多的是表达了对阿里云、腾讯云等国内云企业太过重视“降本增效”而忽视稳定性的担忧。或许在“拼价格”这条道路之外,国内云厂商应该更多考虑拼技术、拼稳定性。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党