AWS 公布 10 月 20 日重大故障原因：DynamoDB DNS 系统竞争条件导致Amazon Web Services (AWS) 发布了 2025 年 10 月 19 日至 20 日 US-EAST-1 (弗吉尼亚北部) 区域重大服务中断的详细原因报告

一个小站的自留地

AWS US-EAST-1 区域出现故障，多服务受影响北京时间 10 月 20 日下午 3:11 (当地时间 12:11 AM PDT) 左右，Amazon Web Services (AWS) 的 US-EAST-1 (弗吉尼亚北部) 区域开始出现故障。AWS Health Dashboard 随后在 15:51 确认，该区域多种服务的错误率和延迟增加。此次中断影响范围极大，导致全球大量网站和服务下线。据 The Independent 和 Down Detector 报道，受影响的服务包括 S…

AWS 公布 10 月 20 日重大故障原因：DynamoDB DNS 系统竞争条件导致

Amazon Web Services (AWS) 发布了 2025 年 10 月 19 日至 20 日 US-EAST-1 (弗吉尼亚北部) 区域重大服务中断的详细原因报告。此次中断的根本原因被确定为 Amazon DynamoDB 的 DNS 自动化管理系统中存在一个潜藏的竞争条件 (race condition)。

故障始于 10 月 19 日 23:48 PDT (太平洋夏令时间，北京时间 10 月 20 日 14:48)。报告称，DynamoDB 的 DNS 系统使用多个「DNS Enactor」(执行器) 组件来更新 DNS 计划。事发时，一个因异常延迟而仍在处理旧计划的执行器 (A)，与一个已应用新计划并触发旧计划「清理」程序的执行器 (B) 发生冲突。

在关键的时间点，延迟的执行器 (A) 成功将其旧计划应用到了 DynamoDB 的区域端点 (dynamodb.us-east-1.amazonaws.com)，覆盖了正确的记录。紧接着，执行器 (B) 的清理程序按计划删除了这个刚被激活的旧计划，导致该端点的 DNS 记录变为空白，所有解析请求失败，服务中断。

此问题导致 DynamoDB API 错误率飙升，并引发了大规模的连锁故障。首先，Amazon Elastic Compute Cloud (EC2) 的服务器管理系统 (DWFM) 因依赖 DynamoDB 而崩溃，在 DynamoDB 恢复后尝试重建租约时又引发了「拥塞崩溃」，导致新 EC2 实例启动失败。

随后，EC2 的恢复积压了大量网络配置任务，导致 Network Load Balancer (NLB) 的健康检查系统将尚未配置网络的新实例错误地判定为「不健康」并将其移除，造成 NLB 客户遭遇大量连接错误。

这一系列故障最终影响了 AWS Lambda、ECS、EKS、Amazon Connect、AWS Management Console 登录 (IAM) 和 Amazon Redshift 等多项服务。AWS 表示已在全球范围禁用该 DNS 自动化系统，将在修复竞争条件后重新启用。

(AWS)