一个小站的自留地
OpenAI API 与 ChatGPT 出现大规模服务中断 2024 年 12 月 12 日,OpenAI 旗下的 API、ChatGPT 和 Sora 系统遭遇了严重服务中断问题,导致用户无法正常调用 API 和登录平台。根据 OpenAI 的更新公告,问题于北京时间 12 月 12 日上午 7:17 开始被调查,在此之后快速展开修复工作。 OpenAI 在 8:24 宣布已经找到了问题的原因,并正在全力推出解决方案。尽管中断期间 ChatGPT、Sora 以及 API 功能受到了较大影响,工程团…
OpenAI 发布大规模服务中断复盘

当地时间 2024 年 12 月 11 日,OpenAI 遭遇了一次严重的全平台服务中断事件。本次事件起因于一个新的遥测服务部署,意外导致了 Kubernetes 控制平面崩溃,进而引发了全系统性的服务降级。事件发生在当地时间下午 3 时 16 分,直至晚间 7 时 38 分才完全恢复。

本次事件的主要原因在于一个新部署的遥测服务配置错误,导致集群中每个节点都执行了大量资源密集型的 Kubernetes API 操作。由于这些操作的开销随集群规模增长,最终使得 Kubernetes API 服务器不堪重负。虽然 Kubernetes 的数据平面可以独立运行,但 DNS 服务依赖于控制平面,这导致了服务发现系统的级联故障。

时间线:
- 12 月 10 日:新遥测服务在临时集群测试通过
- 12 月 11 日 14 时 23 分:变更合并,部署流程启动
- 14 时 51 分至 15 时 20 分:变更应用到所有集群
- 15 时 13 分:系统告警触发
- 15 时 16 分:用户开始受到影响
- 19 时 38 分:所有服务完全恢复

OpenAI 表示,此次事件源于一次内部变更,与安全事件或产品发布无关。具体原因是新部署的遥测服务意外导致 Kubernetes 控制平面过载,进而引发连锁故障。目前所有服务已恢复正常运行,公司正在落实多项技术改进措施以防止类似事件再次发生。

(OpenAI)
 
 
Back to Top