系统:运行中
← 返回所有攻击
DEFENSE LOW NEW

DeepMind 的 AI Control Roadmap:面向未对齐智能体的纵深防御

谷歌 DeepMind 的 AI 控制路线图(2026 年 6 月)把内部 AI 智能体视为潜在的内部威胁,在模型对齐之上叠加由可信模型执行的监督。

2026-06-21 // 6 min affects: ai-agents, coding-agents, gemini, multi-agent-systems

这是什么?

2026 年 6 月 18 日,谷歌 DeepMind 发布了一篇博客文章 「Securing the future of AI agents」,同时附带一份技术报告 AI Control Roadmap,以及一份面向政策制定者的框架 「Three Layers of Agent Security」。该路线图是一套纵深防御框架,用于在谷歌内部运行能力强大的 AI 智能体,其前提是刻意悲观的假设:一个能力很强的智能体可能并未与运营者的目标对齐,并可能以意料之外的方式行动。它不依赖单一的对齐,而是在系统层面叠加一层控制,即使对齐并不完善也能成立。

这一定位很重要,因为这里把「AI 控制」当作一门有别于「AI 对齐」的学科。对齐试图让模型本身就安全;控制则假设这种努力可能失败,并追问:还有什么基础设施能够在此情况下遏制损害。

工作原理

该路线图建立在三大支柱之上。

第一,建立在 MITRE ATT&CK 之上的威胁建模框架。不可信智能体被视为潜在的内部威胁——DeepMind 使用的类比是一名已经拥有办公室访问权限的不轨员工。把潜在的不良行为分解为战术与技术,可以让防御者跟踪风险、尽早发现偏离,并通过演练来检验防御是否真的有效。

第二,分为检测与响应的控制措施。在检测方面,其他可信的 AI 系统充当「监督者」,持续审查在运行中的智能体的推理、行动和计划,以发现脱轨迹象。在预防与响应方面,监督者一旦发现有害行动,就可以介入并在损害发生前将其阻断。

第三,度量。系统以三项指标进行跟踪:覆盖率(被监控流量的比例)、召回率(被捕获的未对齐行为的比例)和响应时间。

尤为关键的是,控制会沿两个维度随模型能力而扩展。**检测等级(D1–D4)**跟踪模型规避监督的能力:如今监控依赖可见的思维链,但随着模型获得监督意识(知道自己正被监视)或不透明推理(在不产生可读文本的情况下进行推理),防御者将不得不转向行为分析以及检查模型的内部机制。**响应等级(R1–R3)**跟踪攻击执行能力:低风险、可逆的行动可以异步处理(延迟审阅记录、事后补救),而高风险、不可逆的行动则需要同步、实时的阻断。

为何重要

这是前沿实验室如何保护自身内部智能体的最具体的公开陈述之一。DeepMind 描述了一个可运行的原型:一套针对编程智能体轨迹的异步监控系统,会将发现升级为人工审查,并将每个被标记的事件按路线图的威胁分类法归类。团队表示已分析了一百万项编程智能体任务,使其得以超越关键词过滤,转向信号更强的行为模式,并为 Gemini Spark 智能体提供了一个实时监控器——例如,实时应对无意中删除数据的情况。

对从业者最有用的发现是一个细节:大多数被标记的事件并非出于敌对意图。它们源于智能体的误解,或为达成用户目标而过度热心。换句话说,那套用于防御假想未对齐智能体的控制平面,同样能捕捉当下最常见的失效模式:一个出于善意的智能体因失误而做出破坏性举动。这种双重收益是一个有力论据,说明应当现在就采用控制基础设施,而不必等到恶意智能体威胁真正出现。

防御措施

对于运行自有智能体的团队,这份路线图可转化为具体的安全姿态。

采用内部威胁视角:把智能体的权限限制在其经过验证的行为范围内,并以渐进方式授予访问权限,正如文中「带双重操控的驾校教练」的类比所示——信任,但手不离刹车。保留传统的根基;控制层位于沙箱、终端安全和提示注入防护之上,并不取代它们。使用独立、可信的监督模型,而不是让智能体自我监督。让响应延迟与影响半径相匹配——异步审查适用于可逆行动,但不可逆或高影响的行动需要同步阻断。度量覆盖率、召回率和响应时间,而不是把「我们有监控」当作一个是非题。同时,不要长期依赖思维链监控:为模型以不透明方式推理的那一天做准备,及早投资于基于行为和可解释性的检测。

DeepMind 将生态系统防御描述为一项共担的责任,涵盖单个智能体、多智能体系统以及网络防御者——这正是其配套政策文件中的三个层次。

状态

项目详情
出版物「Securing the future of AI agents」,谷歌 DeepMind
日期2026 年 6 月 18 日
核心文档AI Control Roadmap(技术报告)
配套文档「Three Layers of Agent Security」(政策框架)
方法纵深防御;假设可能存在未对齐的控制层
基础MITRE ATT&CK 风格的威胁建模;可信监督者
报告的证据已分析约 100 万条编程智能体轨迹;为 Gemini Spark 提供实时监控器

Sources