故障近两日，Cloudflare 发布故障总结以下是 Cloudflare 中断事故的关键点总结：- Cloudflare 在11月2日遭遇了一次服务中断，此次中断影响了其控制面板和分析服务功能

一个小站的自留地

时隔一周，Cloudflare 仪表盘和 API 再次故障本次故障是由于数据中心断电。 Cloudflare正在评估影响数据中心的电力故障，同时进行服务故障转移。距离上次故障仅仅一周，Cloudflare 再次出现红色故障。截止发稿已经过去一个多小时。一觉醒来，仍然没有解决。目前登录面板偶发 504 故障，但勉强可以访问并使用，应为备用机房资源有限导致拥挤。目前受影响服务包括： Logpush, WARP / Zero Trust device posture, Magic WAN…

故障近两日，Cloudflare 发布故障总结

以下是 Cloudflare 中断事故的关键点总结：

- Cloudflare 在11月2日遭遇了一次服务中断，此次中断影响了其控制面板和分析服务功能。中断从11月2日的 11:44 （UTC）开始，一直持续到11月4日的 04:25 （UTC）。

- 事故起源于 Cloudflare 在俄勒冈州的一个主要数据中心的电力故障，该数据中心由 Flexential 运营。由于故障导致数据中心丧失了商业电源以及备用发电机的供电，从而引发了服务中断。

- Cloudflare 建立了横跨三个数据中心的冗余机制，以防单个数据中心发生故障。然而，某些关键服务依赖于故障的数据中心，随之出现了问题。

- Cloudflare 启用了其灾难恢复站点以尽快恢复服务，但在过程中遭遇了如系统过载等问题。并不是所有服务都能够顺利切换。

- 由于需要对所有系统和服务进行彻底重启，原始数据中心的恢复工作耗时较长。部分服务的恢复更是延迟数日。

- Cloudflare 承诺将进行改进，比如提升系统的可靠性要求，加强测试，并且尽量减少故障的影响范围。

——————
src:
https://blog.cloudflare.com/post-mortem-on-cloudflare-control-plane-and-analytics-outage/