DEFENSE LOW NEW

DeepMind 的 AI Control Roadmap：面向未对齐智能体的纵深防御

谷歌 DeepMind 的 AI 控制路线图（2026 年 6 月）把内部 AI 智能体视为潜在的内部威胁，在模型对齐之上叠加由可信模型执行的监督。

2026-06-21 // 6 min affects: ai-agents, coding-agents, gemini, multi-agent-systems

这是什么？

2026 年 6 月 18 日，谷歌 DeepMind 发布了一篇博客文章「Securing the future of AI agents」，同时附带一份技术报告 AI Control Roadmap，以及一份面向政策制定者的框架「Three Layers of Agent Security」。该路线图是一套纵深防御框架，用于在谷歌内部运行能力强大的 AI 智能体，其前提是刻意悲观的假设：一个能力很强的智能体可能并未与运营者的目标对齐，并可能以意料之外的方式行动。它不依赖单一的对齐，而是在系统层面叠加一层控制，即使对齐并不完善也能成立。

这一定位很重要，因为这里把「AI 控制」当作一门有别于「AI 对齐」的学科。对齐试图让模型本身就安全；控制则假设这种努力可能失败，并追问：还有什么基础设施能够在此情况下遏制损害。

工作原理

该路线图建立在三大支柱之上。

第一，建立在 MITRE ATT&CK 之上的威胁建模框架。不可信智能体被视为潜在的内部威胁——DeepMind 使用的类比是一名已经拥有办公室访问权限的不轨员工。把潜在的不良行为分解为战术与技术，可以让防御者跟踪风险、尽早发现偏离，并通过演练来检验防御是否真的有效。

第二，分为检测与响应的控制措施。在检测方面，其他可信的 AI 系统充当「监督者」，持续审查在运行中的智能体的推理、行动和计划，以发现脱轨迹象。在预防与响应方面，监督者一旦发现有害行动，就可以介入并在损害发生前将其阻断。

第三，度量。系统以三项指标进行跟踪：覆盖率（被监控流量的比例）、召回率（被捕获的未对齐行为的比例）和响应时间。

尤为关键的是，控制会沿两个维度随模型能力而扩展。**检测等级（D1–D4）**跟踪模型规避监督的能力：如今监控依赖可见的思维链，但随着模型获得监督意识（知道自己正被监视）或不透明推理（在不产生可读文本的情况下进行推理），防御者将不得不转向行为分析以及检查模型的内部机制。**响应等级（R1–R3）**跟踪攻击执行能力：低风险、可逆的行动可以异步处理（延迟审阅记录、事后补救），而高风险、不可逆的行动则需要同步、实时的阻断。

为何重要

这是前沿实验室如何保护自身内部智能体的最具体的公开陈述之一。DeepMind 描述了一个可运行的原型：一套针对编程智能体轨迹的异步监控系统，会将发现升级为人工审查，并将每个被标记的事件按路线图的威胁分类法归类。团队表示已分析了一百万项编程智能体任务，使其得以超越关键词过滤，转向信号更强的行为模式，并为 Gemini Spark 智能体提供了一个实时监控器——例如，实时应对无意中删除数据的情况。

对从业者最有用的发现是一个细节：大多数被标记的事件并非出于敌对意图。它们源于智能体的误解，或为达成用户目标而过度热心。换句话说，那套用于防御假想未对齐智能体的控制平面，同样能捕捉当下最常见的失效模式：一个出于善意的智能体因失误而做出破坏性举动。这种双重收益是一个有力论据，说明应当现在就采用控制基础设施，而不必等到恶意智能体威胁真正出现。

防御措施

对于运行自有智能体的团队，这份路线图可转化为具体的安全姿态。

采用内部威胁视角：把智能体的权限限制在其经过验证的行为范围内，并以渐进方式授予访问权限，正如文中「带双重操控的驾校教练」的类比所示——信任，但手不离刹车。保留传统的根基；控制层位于沙箱、终端安全和提示注入防护之上，并不取代它们。使用独立、可信的监督模型，而不是让智能体自我监督。让响应延迟与影响半径相匹配——异步审查适用于可逆行动，但不可逆或高影响的行动需要同步阻断。度量覆盖率、召回率和响应时间，而不是把「我们有监控」当作一个是非题。同时，不要长期依赖思维链监控：为模型以不透明方式推理的那一天做准备，及早投资于基于行为和可解释性的检测。

DeepMind 将生态系统防御描述为一项共担的责任，涵盖单个智能体、多智能体系统以及网络防御者——这正是其配套政策文件中的三个层次。

状态

项目	详情
出版物	「Securing the future of AI agents」，谷歌 DeepMind
日期	2026 年 6 月 18 日
核心文档	AI Control Roadmap（技术报告）
配套文档	「Three Layers of Agent Security」（政策框架）
方法	纵深防御；假设可能存在未对齐的控制层
基础	MITRE ATT&CK 风格的威胁建模；可信监督者
报告的证据	已分析约 100 万条编程智能体轨迹；为 Gemini Spark 提供实时监控器

DeepMind 的 AI Control Roadmap：面向未对齐智能体的纵深防御

这是什么？

工作原理

为何重要

防御措施

状态

Sources