一个小站的自留地
腾讯云发布故障复盘,系「云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足」导致。

腾讯云称,此次故障一共持续了近87分钟,期间共有1957个客户报障。

整个处理过程如下:
1. 15:23,监测到故障,立即执行服务的恢复,同时进行原因的排查;
2. 15:47,发现通过回滚版本没能完全恢复服务,进一步定位问题;
3. 15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
4. 16:02,对全地域进行数据修复工作,API服务逐地域恢复中;
5. 16:05,观测到除上海外的地域API服务均已恢复,进一步定位上海地域的恢复问题;
6. 16:25,定位到上海的技术组件存在API循环依赖问题,决定通过流量调度至其他地域来恢复;
7. 16:45,观测到上海地域恢复了,此时API和依赖API的PaaS服务彻底恢复,但控制台流量剧增,按九倍容量进行了扩容;
8. 16:50,请求量逐渐恢复到正常水平,业务稳定运行,控制台服务全部恢复;
9. 17:45,持续观察一小时,未发现问题,按预案处理过程完毕。

Src:
https://mp.weixin.qq.com/s/2e2ovuwDrmwlu-vW0cKqcA
 
 
Back to Top