太平洋夏令时间 2025 年 6 月 12 日 10 时 49 分(北京时间 6 月 13 日凌晨 1 时 49 分),Google Cloud Platform(GCP)发生全球性重大故障,导致包括 Gmail、Google Drive、YouTube 在内的数十项 Google 服务以及依赖 GCP 的第三方服务出现大面积中断。故障持续约 3 小时,其中美国中部地区 us-central1 的恢复时间长达 2 小时 40 分钟。
根据 Google 发布的详细事故报告,故障源于 Service Control 系统 —— 负责 Google 所有 API 请求授权和配额管理的核心组件。5 月 29 日,Google 向 Service Control 部署了一项新的配额策略检查功能,但该代码变更存在致命缺陷:缺乏适当的错误处理机制,且未受功能标志位(Feature Flag)保护。
6 月 12 日,当一项包含空白字段的策略变更被推送到全球数据库时,触发了有问题的代码路径。空指针异常导致 Service Control 二进制文件进入崩溃循环,由于配额管理的全球性质,故障在数秒内蔓延至所有地区。
Google 工程团队在 2 分钟内开始响应,10 分钟内识别根本原因,25 分钟内部署缓解措施。然而,在 us-central1 等大型地区,Service Control 任务重启时产生的「雷群效应」(Thundering Herd)过载了底层基础设施,延长了恢复时间。
此次故障影响了超过 80 项 Google Cloud 服务,包括身份和访问管理(IAM)、Cloud Storage、BigQuery、Vertex AI 等,以及 Gmail、Google Calendar、Google Drive 等 Workspace 产品。Spotify、Discord、Cloudflare、Anthropic Claude、OpenAI 等依赖 GCP 的第三方服务也受到波及。
Google 承诺采取一系列补救措施,包括模块化 Service Control 架构以实现故障开放(Fail-Open)、审查所有消费全球复制数据的系统、强制关键二进制文件变更必须受功能标志保护,以及改进错误处理和测试实践。公司还计划确保监控和通信基础设施在 Google Cloud 主要服务宕机时仍能正常运行。
(Google Cloud)