继 2025 年 6 月 6 日,中国最大云厂商阿里云因域名被“关停”而引发全球业务中断之后,10 月 20 日,全球最大云厂商亚马逊 AWS 又因域名解析故障造成长达十几个小时的全球业务中断。
北京时间 10 月 20 日下午 15 点,AWS 发出通告:判断由于 DNS 解析问题导致美国东部 1 区(us-east-1)内重要应用系统 DynamoDB、EC2、Lambda 等核心服务严重受阻,超过上百家全球性企业的核心应用无法正常提供服务;即使在一个半小时内恢复了 DNS,但截至北京时间 10 月 21 日凌晨 3 点,事件发生 12 个小时后仍有绝大部分业务处于中断状态(107 services 停止异常,26 services 恢复)。
24 小时内关于 AWS 云服务中断的用户报告图源“华尔街见闻”
事件回顾:从 DNS 开始的服务雪崩美东时间 10 月 20 日凌晨 2:01,AWS 首次确认 DynamoDB API 端点 DNS 解析异常。
随后的一个半小时内,故障开始蔓延 ——EC2 实例无法启动、CloudTrail 日志积压、Lambda 函数执行失败,甚至 IAM 权限管理也受到影响。
凌晨 3:35,AWS 宣布 DNS 问题基本缓解,但是大部分核心服务仍在持续受到影响。
参考链接:https://health.aws.amazon.com/health / status
故障探因:DNS 架构的“阿喀琉斯之踵”如果把 AWS 想象成一个超大的“数据园区”,里面有各种服务(比如存数据的 DynamoDB、跑程序的 EC2)。而 DNS 就像园区里的导航系统,帮你的请求找到对应的服务地址。
这次故障的核心,不是外层的“公共导航牌”(由公共 DNS 提供,负责全球 AWS 服务的基础定位)坏了,而是美国东部 1 区里专门给 AWS 核心服务指路的“内部导航”(AWS 自建的智能 DNS 集群)出了问题。
1.为什么不是外层公共 DNS 引起的问题?
查询us-east-1.amazonaws.com的 NS 记录可知,该域解析由公共 DNS 服务商承载(与亚太孟买地区的域名 NS 相同)。如果这一层出现问题,受影响的将是所有 AWS 服务,而不仅仅是美东 1 区。
2.异常 DNS 集群具体定位
AWS 美国东部 1 区的 DNS 架构采用了分层设计:公共 DNS 层和内部智能 DNS 层。结合 AWS 故障公告初步判断为是这第二层内部 DNS 集群的异常,触发了此次服务中断。
us-east-1.amazonaws.com.区域的 DNS 服务品牌为公共 DNS 服务商(Neustar UltraDNS),如下图所示:
3.故障点定位
当解析深入到特定服务(如dynamodb.us-east-1.amazonaws.com)时,请求会被引导至 AWS 自建的智能 DNS 集群。这些集群负责将用户请求导向最优的数据中心。如下图所示:
云 + 自建 DNS 是目前行业中使用较多的一种架构,一般自建 DNS 会使用智能 DNS 来搭建,利用数据中心智能 DNS 实现更为灵活的流量调度。
AWS 将其几乎所有服务组件都进行了深度域名化,但域名系统架构设计韧性能力考虑不足:AWS 虽设计了业务系统域名化后的域名体系分层、域名系统隔离等方面。但从故障表现来看,仍存在某些重点业务在域名系统设计层面不具备冗余、应急逃生能力等问题。
启示:构建体系化的韧性 DNS 系统从今年 6 月阿里云的核心域名被境外域名注册管理机构“停服”,核心服务受到波及,大量企业级应用异常;再到今年 8 月国内公共 DNS 出现大规模的解析结果异常,及至本次 AWS 发生的大规模核心服务异常。全球性 DNS 安全事件频发,以其影响范围之广、破坏力之强,为各行业拉响警报。全球性 DNS 事件,已超越传统的 DDoS 攻击或技术漏洞范畴,演变成为系统性、架构级风险。
域名管理涵盖了从注册商、公共 DNS 服务商到自建 DNS 集群的完整链条,任一环节的疏忽都可能导致全线瘫痪。从域名注册到域名解析,互联网域名系统国家工程研究中心(ZDNS)CEO 邢志杰提出,全面构建体系化的韧性 DNS 系统,是把控潜在风险、支撑业务发展的重要保障。
第一,掌握基础资源,实现域名注册管理自主可控。关键核心业务需要减少对国外管辖的域名资源依赖,应优先注册和使用由国家主导管理的顶级域名(如.CN)下的二级域名,能从根本上降低因国际司法管辖冲突而被境外注册局单方面“停服”的风险。同时,建议有条件的机构可以关注 2026 年 4 月开放的新通用顶级域名申请,基于自有顶级域名资源建立完全可控的韧性域名注册管理能力。
第二,升级技术架构,打造高可用、抗打击的解析体系,提升服务连续性和风险控制能力。ZDNS 互联网基础资源服务专家提出,在互联网侧,不仅要构建高可靠、自主可控的解析系统,更要前瞻性地应对域名篡改、劫持等外部安全风险,确保即使遭遇攻击也能快速恢复,保障在线业务的绝对连续;在内网侧,持续优化 DNS 运行体系与韧性 DNS 管理体系。包括 DNS 整体架构规划、服务连续性的设计、流量调度的设计、安全防护的设计,以及完善满足业务需求的域名规范制度、提升面向业务的运维能力、健全完善的 DNS 应急方案、确保审计合规等。
第三,体系化构建域名系统的可观测能力。企业需要能够快速识别 DNS 解析异常,并将其与一般的网络问题区分开来,从而缩短故障定位时间。
经过十余年的实践应用,ZDNS 从网络空间、基础资源以及技术系统三个层面、注册和解析两个环节,帮助用户构建起了多层次、纵深化的防护体系。ZDNS 提出,在日益复杂严峻的网络空间中,用户构建韧性 DNS,要从资源、技术、管理三个维度协同发力,将自主可控的基础资源、分布式高可用的技术架构、以及体系化的观测能力融为一体,助力用户真正赢得面向未来的数字韧性。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。