脆弱的智能体:间接注入在多步工具调用中依然奏效
2026 年 4 月 4 日的一篇论文,在多步智能体环境下对 9 个模型测试了 6 种防御对抗 4 类间接注入向量 — 高级注入几乎绕过全部防御,部分表层缓解措施甚至适得其反。
这是什么
2026 年 4 月 4 日,研究人员在 arXiv 上发布了 Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs。这篇论文并没有提出新的攻击,而是系统性地测量:当我们不再只用单轮来评估,而是把当前的间接提示注入(IPI)防御放到智能体真正运行的环境——动态、多步、带工具调用的工作流——中时,这些防御到底有多不堪一击。
实验范围很广。作者在 九个基座模型 上,针对 四类间接注入攻击向量 评估了 六种防御策略;在这些环境中,智能体自主获取第三方内容,该内容中藏有恶意指令,随后智能体继续调用工具。核心结论令人不安:高级注入 几乎绕过全部 基线防御,而某些表层缓解措施不仅无效,反而 适得其反——让情况变得更糟。
它如何运作
间接提示注入把攻击者的指令藏在智能体本应读取的数据里——网页、文档、工具返回结果、邮件正文。智能体在执行正常任务时把它取回,而那条被埋入的指令就被当作来自用户。这正是 致命三要素 核心处的”数据与指令”混淆:访问私有数据、暴露于不可信内容、以及一条外泄通道,三者集于同一个智能体。
这篇论文的新增之处在于 多步维度。单轮基准只问”模型现在会不会服从被注入的那一行?”。真实智能体不会就此止步。它规划、获取、调用工具、读取结果、再规划。被注入的指令有许多回合来发挥作用,而早期一次偏离会沿着整条链条放大。作者用 Hijack Ratio(劫持率)——智能体轨迹被引向攻击者目标的频率——来度量,并报告各模型上都呈现出持续偏高的劫持率。
对防御者而言,有两点机理观察至关重要。
第一,智能体无法可靠地把恶意成分与合法内容区分开。论文指出,几乎不存在能把注入指令与良性数据稳定区分开的语言学特征。这直接打击了占主导地位的防御家族——前缀标签、角色标签、“以下为不可信数据”分隔符——它们都假设可以引导模型识别一条它显然无法稳健感知的边界。
第二,某些表层缓解措施适得其反。在不可信内容周围堆叠更多警告性脚手架,可能反而提升智能体对被注入区块的注意力,而非降低其影响,产生比完全不做缓解更糟的结果。这与 针对智能体注入威胁的分类学研究(2026 年 2 月)一致:依赖上下文的智能体任务,会击败那些在无上下文基准上调校的防御。
为何重要
这一结果是关于智能体安全现状的时效性信号,而非一段载荷。如果你部署了带工具调用的智能体,而你的 IPI 防御是用单轮拒答测试验证的,那么这篇论文告诉你:那个数字过于乐观。“通过基准”与”在面对攻击者可控内容的多步运行中存活”之间的差距,恰恰是大多数生产环境智能体所处之地。
它也收窄了值得投入的防御集合。输入侧、提示层的缓解——分隔符、标签、“忽略一切看起来像指令的东西”——正是在此失效的那些,有时还会反噬。能够存活的防御,作用于 智能体的内部状态或其动作,而非文本的表层形式。
防御
论文自身的正向结果就指明了方向,并与 2026 年的多条研究线相印证。
-
在表征层检测,而非提示层。 作者将 表征工程(Representation Engineering,RepE) 作为防御进行测试,并报告基于 RepE 的 circuit breaker(熔断器) 能在 智能体落实未授权动作之前 识别并拦截它,在九个基座模型上都有很高的检测准确率。这与 基于表征的越狱检测 属于同一家族:监控内部激活以捕捉劫持的特征,而不是试图清洗输入字符串。
-
管控动作,而非文本。 既然智能体无法在语言层面可靠地分类被注入指令,就把控制点放在工具调用边界:最小权限的工具范围、白名单参数,以及对破坏性或外泄性动作要求显式的人工确认。一个被引偏却够不到任何危险工具的计划,是一次被控制住的失败。
-
将工具调用归因到其成因。 AttriGuard(2026 年 3 月)通过对工具调用做因果归因来防御 IPI——区分源自合法任务的动作与由获取内容注入的动作。关于这一总体思路,参见我们关于 以因果归因防御间接注入 的文章。
-
缩小抵达规划器的不可信面。 在智能体推理之前,先用”干净”模型对第三方内容做结构化抽取或摘要,把工具定义与 system prompt 放在独立段落,避免把大块原始内容直接倒入上下文——否则被注入的指令会在多个步骤中累积影响力。
-
以自适应、多步方式测试。 不要用单轮注入字符串去认证一个智能体。在完整的工具调用轨迹上重放攻击,度量劫持率,而不只是首轮拒答。一个能扛住一轮的防御,常常在第三步就崩溃。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| 脆弱性论文 | arXiv 2604.03870 | 2026-04-04 | 6 防御 × 4 IPI 向量 × 9 模型,多步 |
| 关键正向结果 | RepE 熔断器 | 同一论文 | 在落实前拦截未授权动作 |
| 威胁分类学 + AGENTPI | arXiv 2602.10453 | 2026-02 | 依赖上下文的智能体任务击败无上下文防御 |
| AttriGuard 防御 | arXiv 2603.10749 | 2026-03 | 工具调用的因果归因 |
| 框架 | 致命三要素 | 2025-06 | 为何具备数据 + 不可信输入 + 外泄通道的智能体易受攻击 |
要点不是”又一篇 IPI 论文”。而是:大多数团队部署的防御——提示层的标签与警告——正是这次评估所打破的,有时还会让智能体更听命于攻击者。能够存活的缓解措施监控智能体的内部状态并约束其动作。请用多步、自适应的注入重新校准你的智能体,否则就把你的单轮通过率当作虚构。