一个小站的自留地
时隔一周,Cloudflare 仪表盘和 API 再次故障 本次故障是由于数据中心断电。 Cloudflare正在评估影响数据中心的电力故障,同时进行服务故障转移。 距离上次故障仅仅一周,Cloudflare 再次出现红色故障。 截止发稿已经过去一个多小时。 一觉醒来,仍然没有解决。 目前登录面板偶发 504 故障,但勉强可以访问并使用,应为备用机房资源有限导致拥挤。 目前受影响服务包括: Logpush, WARP / Zero Trust device posture, Magic WAN…
故障近两日,Cloudflare 发布故障总结

以下是 Cloudflare 中断事故的关键点总结:

- Cloudflare 在11月2日遭遇了一次服务中断,此次中断影响了其控制面板和分析服务功能。中断从11月2日的 11:44 (UTC) 开始,一直持续到11月4日的 04:25 (UTC)。

- 事故起源于 Cloudflare 在俄勒冈州的一个主要数据中心的电力故障,该数据中心由 Flexential 运营。由于故障导致数据中心丧失了商业电源以及备用发电机的供电,从而引发了服务中断。

- Cloudflare 建立了横跨三个数据中心的冗余机制,以防单个数据中心发生故障。然而,某些关键服务依赖于故障的数据中心,随之出现了问题。

- Cloudflare 启用了其灾难恢复站点以尽快恢复服务,但在过程中遭遇了如系统过载等问题。并不是所有服务都能够顺利切换。

- 由于需要对所有系统和服务进行彻底重启,原始数据中心的恢复工作耗时较长。部分服务的恢复更是延迟数日。

- Cloudflare 承诺将进行改进,比如提升系统的可靠性要求,加强测试,并且尽量减少故障的影响范围。

——————
src:
https://blog.cloudflare.com/post-mortem-on-cloudflare-control-plane-and-analytics-outage/
 
 
Back to Top