OpenAI 发布大规模服务中断复盘当地时间 2024 年 12 月 11 日，OpenAI 遭遇了一次严重的全平台服务中断事件

一个小站的自留地

OpenAI API 与 ChatGPT 出现大规模服务中断 2024 年 12 月 12 日，OpenAI 旗下的 API、ChatGPT 和 Sora 系统遭遇了严重服务中断问题，导致用户无法正常调用 API 和登录平台。根据 OpenAI 的更新公告，问题于北京时间 12 月 12 日上午 7:17 开始被调查，在此之后快速展开修复工作。 OpenAI 在 8:24 宣布已经找到了问题的原因，并正在全力推出解决方案。尽管中断期间 ChatGPT、Sora 以及 API 功能受到了较大影响，工程团…

OpenAI 发布大规模服务中断复盘

当地时间 2024 年 12 月 11 日，OpenAI 遭遇了一次严重的全平台服务中断事件。本次事件起因于一个新的遥测服务部署，意外导致了 Kubernetes 控制平面崩溃，进而引发了全系统性的服务降级。事件发生在当地时间下午 3 时 16 分，直至晚间 7 时 38 分才完全恢复。

本次事件的主要原因在于一个新部署的遥测服务配置错误，导致集群中每个节点都执行了大量资源密集型的 Kubernetes API 操作。由于这些操作的开销随集群规模增长，最终使得 Kubernetes API 服务器不堪重负。虽然 Kubernetes 的数据平面可以独立运行，但 DNS 服务依赖于控制平面，这导致了服务发现系统的级联故障。

时间线：
- 12 月 10 日：新遥测服务在临时集群测试通过
- 12 月 11 日 14 时 23 分：变更合并，部署流程启动
- 14 时 51 分至 15 时 20 分：变更应用到所有集群
- 15 时 13 分：系统告警触发
- 15 时 16 分：用户开始受到影响
- 19 时 38 分：所有服务完全恢复

OpenAI 表示，此次事件源于一次内部变更，与安全事件或产品发布无关。具体原因是新部署的遥测服务意外导致 Kubernetes 控制平面过载，进而引发连锁故障。目前所有服务已恢复正常运行，公司正在落实多项技术改进措施以防止类似事件再次发生。

(OpenAI)