AI 智能体陷阱:DeepMind 关于网页如何劫持智能体的六类图谱
谷歌 DeepMind 的《AI Agent Traps》论文(SSRN,2026 年 3 月底)首次系统性地对针对智能体感知、推理、记忆、行动、多智能体动态及人类监督者的对抗性网页内容进行了分类。
这是什么?
《AI Agent Traps》是谷歌 DeepMind 的一篇框架性论文,作者为 Matija Franklin、Nenad Tomašev、Julian Jacobs、Joel Z. Leibo 和 Simon Osindero,于 2026 年 3 月底发布在 SSRN 上。作者将「智能体陷阱」定义为嵌入网页、文档或 API 响应中的对抗性内容,旨在误导或利用处理它的 AI 智能体。其核心机制用作者的话说,是「通过改变环境而非模型,陷阱将智能体自身的能力反过来对付它」。该论文自称是此类威胁的首个系统性目录,每一类别都基于此前已公开发表的概念验证,而非新的攻击。
将其作为统一参照的价值在于:智能体安全已积累了数十项孤立发现(间接注入、记忆投毒、工具滥用)。这篇论文按照它们攻击的「智能体循环的哪个环节」加以组织,使攻击面在威胁建模中变得清晰可读。
工作原理
该分类法包含六个类别,每个针对智能体周期的不同阶段:
- 内容注入陷阱(感知)。 隐藏在 HTML 注释、CSS、图像元数据或无障碍标签中的指令——人工审查者看不见,却被智能体解析为命令。论文引用了 WASP 基准测试:嵌入网页内容、由人工撰写的简单注入,在多达 86% 的测试场景中部分劫持了智能体。
- 语义操纵陷阱(推理)。 没有显式命令——而是用框架设定、虚假权威信号或强烈情绪化文本,利用与人类相同的锚定与框架偏见,因此对相同事实的不同措辞会改变智能体的结论。
- 认知状态陷阱(记忆)。 投毒智能体跨会话回读的检索库。被引用的工作显示,注入少量经优化的文档——不到知识库的 0.1%——即可使目标查询被重定向,成功率超过 80%。
- 行为控制陷阱(行动)。 直接劫持行动层:嵌入式越狱、外泄命令以及子智能体派生。论文记录了一起 M365 Copilot 案例:一封精心构造的邮件使系统绕过分类器,泄露其全部特权上下文;子智能体派生攻击的成功率被引用为 58% 至 90%。
- 系统性陷阱(多智能体)。 旨在触发网络级失效的输入——拥塞攻击、以 2010 年「闪电崩盘」为模型的相互依赖级联,以及将载荷分散到多个看似无害来源的组合式碎片陷阱,只有当智能体把它们聚合时才会拼装成完整攻击。
- 人在回路陷阱(监督者)。 旨在诱发审批疲劳的输出、非专家会不加审查就批准的密集摘要,或实为钓鱼的推荐链接——把智能体变成对付其自身监督者的武器。
关键之处:陷阱可以组合。它们可被串联、叠加或分布部署,因此作者认为逐一应对的防御并不充分。本文不复现任何可用的载荷。
为何重要
这一框架将安全边界从「提示词」转移到「智能体所接触的整个信息环境」。这影响重大,因为大多数已部署的控制措施都假设只有一个可信输入通道。一个会浏览网页、读取邮件、查询知识库并派生子智能体的智能体,至少拥有四个独立的注入面;而系统性类别表明,影响半径并不限于单个智能体——同质化的交易、编码或客服智能体集群可被一并操纵。论文明确点名金融行业,因为算法智能体已深度嵌入交易基础设施。
防御
论文提出了三个层面的协调应对方案,同时也是一份实用清单:
- 技术层。 在模型开发阶段进行对抗训练;在运行时叠加来源过滤器(拒绝不可信来源)、内容扫描器(在摄入前检测隐藏指令)以及能在行为异常时中途暂停智能体的输出监控器。将检索到的记忆和工具结果视为不可信数据,而非指令。
- 生态层。 制定网页标准,让网站能明确标记面向 AI 消费的内容,并建立域名声誉系统,使智能体能对来源可靠性进行加权——类似于自动驾驶汽车必须拒绝被篡改的交通标志。
- 治理层。 作者指出了一个问责空白:当被劫持的智能体实施金融犯罪时,运营方、模型提供方与域名所有者之间的责任划分尚无定论。他们还指出,大多数陷阱类别缺乏标准化基准,因此生产环境中的鲁棒性在很大程度上尚未被衡量。
在工程层面,补充性控制可清晰对应「致命三要素」逻辑:当智能体同时具备不可信内容、持久记忆以及行动或外泄能力时应格外谨慎;按任务限定权限;并在影响半径较大处要求人工确认。
状态
这是一家知名实验室发表的学术分类法,而非某个具名产品中的漏洞,未披露任何利用载荷。论文于 2026 年 3 月底发布在 SSRN 上,并于 2026 年 4 月初被独立媒体报道,使该来源稳妥地落在最近约 90 天内。面向网页和多智能体系统的构建者应将这六个类别用作威胁建模网格,并假定智能体读取的任何环境面——页面、文档、记忆、工具输出或另一智能体的消息——都是潜在陷阱。