Google Cloud 发布全球宕机故障复盘太平洋夏令时间 2025 年 6 月 12 日 10 时 49 分（北京时间 6 月 13 日凌晨 1 时 49 分），Google Cloud Platform（GCP）发生全球性重大故障，导致包括 Gmail、Google Drive、YouTube 在内的数十项 Google 服务以及依赖 GCP 的第三方服务出现大面积中断

一个小站的自留地

Google 云平台全球故障 2025 年 6 月 13 日凌晨 1 时 51 分（北京时间），Google 云平台 (Google Cloud Platform, GCP) 发生全球性重大故障，导致包括 Spotify、Discord、YouTube、Gmail、Cloudflare 在内的众多互联网服务出现大面积中断。故障根因指向 Google 内部身份和访问管理 (Identity and Access Management, IAM) 服务异常。据了解，Google 云内部代号为「Chemi…

Google Cloud 发布全球宕机故障复盘

太平洋夏令时间 2025 年 6 月 12 日 10 时 49 分（北京时间 6 月 13 日凌晨 1 时 49 分），Google Cloud Platform（GCP）发生全球性重大故障，导致包括 Gmail、Google Drive、YouTube 在内的数十项 Google 服务以及依赖 GCP 的第三方服务出现大面积中断。故障持续约 3 小时，其中美国中部地区 us-central1 的恢复时间长达 2 小时 40 分钟。

根据 Google 发布的详细事故报告，故障源于 Service Control 系统 —— 负责 Google 所有 API 请求授权和配额管理的核心组件。5 月 29 日，Google 向 Service Control 部署了一项新的配额策略检查功能，但该代码变更存在致命缺陷：缺乏适当的错误处理机制，且未受功能标志位（Feature Flag）保护。

6 月 12 日，当一项包含空白字段的策略变更被推送到全球数据库时，触发了有问题的代码路径。空指针异常导致 Service Control 二进制文件进入崩溃循环，由于配额管理的全球性质，故障在数秒内蔓延至所有地区。

Google 工程团队在 2 分钟内开始响应，10 分钟内识别根本原因，25 分钟内部署缓解措施。然而，在 us-central1 等大型地区，Service Control 任务重启时产生的「雷群效应」（Thundering Herd）过载了底层基础设施，延长了恢复时间。

此次故障影响了超过 80 项 Google Cloud 服务，包括身份和访问管理（IAM）、Cloud Storage、BigQuery、Vertex AI 等，以及 Gmail、Google Calendar、Google Drive 等 Workspace 产品。Spotify、Discord、Cloudflare、Anthropic Claude、OpenAI 等依赖 GCP 的第三方服务也受到波及。

Google 承诺采取一系列补救措施，包括模块化 Service Control 架构以实现故障开放（Fail-Open）、审查所有消费全球复制数据的系统、强制关键二进制文件变更必须受功能标志保护，以及改进错误处理和测试实践。公司还计划确保监控和通信基础设施在 Google Cloud 主要服务宕机时仍能正常运行。

（Google Cloud）