一个小站的自留地
腾讯云控制台与 API 遭遇广泛服务中断 2024年04月08日,腾讯云出现出现严重宕机事故官方通报故障持续74 分钟(15:31 - 16:45),波及全球 17 个区域与数十款服务。 据 cnBeta,从网友反馈的时间来看,此次腾讯云崩溃的时间大约在今天下午15:20左右。 另据@非法加冯,傍晚 17 时仍有服务异常的零星用户报告。 故障导致控制台等几乎所有与鉴权有关的功能不可用。而云服务器等产品则正常运行。 腾讯云官方记录显示,官方于15:31发现故障,并于16:45 恢复,腾讯云方面暂未发布故障复盘。…
腾讯云发布故障复盘,系「云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足」导致。

腾讯云称,此次故障一共持续了近87分钟,期间共有1957个客户报障。

整个处理过程如下:
1. 15:23,监测到故障,立即执行服务的恢复,同时进行原因的排查;
2. 15:47,发现通过回滚版本没能完全恢复服务,进一步定位问题;
3. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
4. 16:02,对全地域进行数据修复工作,API服务逐地域恢复中;
5. 16:05,观测到除上海外的地域API服务均已恢复,进一步定位上海地域的恢复问题;
6. 16:25,定位到上海的技术组件存在API循环依赖问题,决定通过流量调度至其他地域来恢复;
7. 16:45,观测到上海地域恢复了,此时API和依赖API的PaaS服务彻底恢复,但控制台流量剧增,按九倍容量进行了扩容;
8. 16:50,请求量逐渐恢复到正常水平,业务稳定运行,控制台服务全部恢复;
9. 17:45,持续观察一小时,未发现问题,按预案处理过程完毕。

Src:
https://mp.weixin.qq.com/s/2e2ovuwDrmwlu-vW0cKqcA
 
 
Back to Top