以下是 Cloudflare 中断事故的关键点总结:
- Cloudflare 在11月2日遭遇了一次服务中断,此次中断影响了其控制面板和分析服务功能。中断从11月2日的 11:44 (UTC) 开始,一直持续到11月4日的 04:25 (UTC)。
- 事故起源于 Cloudflare 在俄勒冈州的一个主要数据中心的电力故障,该数据中心由 Flexential 运营。由于故障导致数据中心丧失了商业电源以及备用发电机的供电,从而引发了服务中断。
- Cloudflare 建立了横跨三个数据中心的冗余机制,以防单个数据中心发生故障。然而,某些关键服务依赖于故障的数据中心,随之出现了问题。
- Cloudflare 启用了其灾难恢复站点以尽快恢复服务,但在过程中遭遇了如系统过载等问题。并不是所有服务都能够顺利切换。
- 由于需要对所有系统和服务进行彻底重启,原始数据中心的恢复工作耗时较长。部分服务的恢复更是延迟数日。
- Cloudflare 承诺将进行改进,比如提升系统的可靠性要求,加强测试,并且尽量减少故障的影响范围。
——————
src:
https://blog.cloudflare.com/post-mortem-on-cloudflare-control-plane-and-analytics-outage/