AGENTS MEDIUM NEW

脆弱的智能体:间接注入在多步工具调用中依然奏效

2026 年 4 月 4 日的一篇论文,在多步智能体环境下对 9 个模型测试了 6 种防御对抗 4 类间接注入向量 — 高级注入几乎绕过全部防御,部分表层缓解措施甚至适得其反。

2026-06-02 // 6 min affects: tool-calling-llm-agents, multi-step-agents

这是什么

2026 年 4 月 4 日,研究人员在 arXiv 上发布了 Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs。这篇论文并没有提出新的攻击,而是系统性地测量:当我们不再只用单轮来评估,而是把当前的间接提示注入(IPI)防御放到智能体真正运行的环境——动态、多步、带工具调用的工作流——中时,这些防御到底有多不堪一击。

实验范围很广。作者在 九个基座模型 上,针对 四类间接注入攻击向量 评估了 六种防御策略;在这些环境中,智能体自主获取第三方内容,该内容中藏有恶意指令,随后智能体继续调用工具。核心结论令人不安:高级注入 几乎绕过全部 基线防御,而某些表层缓解措施不仅无效,反而 适得其反——让情况变得更糟。

它如何运作

间接提示注入把攻击者的指令藏在智能体本应读取的数据里——网页、文档、工具返回结果、邮件正文。智能体在执行正常任务时把它取回,而那条被埋入的指令就被当作来自用户。这正是致命三要素核心处的”数据与指令”混淆:访问私有数据、暴露于不可信内容、以及一条外泄通道,三者集于同一个智能体。

这篇论文的新增之处在于 多步维度。单轮基准只问”模型现在会不会服从被注入的那一行?”。真实智能体不会就此止步。它规划、获取、调用工具、读取结果、再规划。被注入的指令有许多回合来发挥作用,而早期一次偏离会沿着整条链条放大。作者用 Hijack Ratio(劫持率)——智能体轨迹被引向攻击者目标的频率——来度量,并报告各模型上都呈现出持续偏高的劫持率。

对防御者而言,有两点机理观察至关重要。

第一,智能体无法可靠地把恶意成分与合法内容区分开。论文指出,几乎不存在能把注入指令与良性数据稳定区分开的语言学特征。这直接打击了占主导地位的防御家族——前缀标签、角色标签、“以下为不可信数据”分隔符——它们都假设可以引导模型识别一条它显然无法稳健感知的边界。

第二,某些表层缓解措施适得其反。在不可信内容周围堆叠更多警告性脚手架,可能反而提升智能体对被注入区块的注意力,而非降低其影响,产生比完全不做缓解更糟的结果。这与针对智能体注入威胁的分类学研究(2026 年 2 月)一致:依赖上下文的智能体任务,会击败那些在无上下文基准上调校的防御。

为何重要

这一结果是关于智能体安全现状的时效性信号,而非一段载荷。如果你部署了带工具调用的智能体,而你的 IPI 防御是用单轮拒答测试验证的,那么这篇论文告诉你:那个数字过于乐观。“通过基准”与”在面对攻击者可控内容的多步运行中存活”之间的差距,恰恰是大多数生产环境智能体所处之地。

它也收窄了值得投入的防御集合。输入侧、提示层的缓解——分隔符、标签、“忽略一切看起来像指令的东西”——正是在此失效的那些,有时还会反噬。能够存活的防御,作用于 智能体的内部状态或其动作,而非文本的表层形式。

防御

论文自身的正向结果就指明了方向,并与 2026 年的多条研究线相印证。

在表征层检测,而非提示层。 作者将 表征工程(Representation Engineering,RepE) 作为防御进行测试,并报告基于 RepE 的 circuit breaker(熔断器) 能在 智能体落实未授权动作之前 识别并拦截它,在九个基座模型上都有很高的检测准确率。这与基于表征的越狱检测属于同一家族:监控内部激活以捕捉劫持的特征,而不是试图清洗输入字符串。
管控动作,而非文本。 既然智能体无法在语言层面可靠地分类被注入指令,就把控制点放在工具调用边界:最小权限的工具范围、白名单参数,以及对破坏性或外泄性动作要求显式的人工确认。一个被引偏却够不到任何危险工具的计划,是一次被控制住的失败。
将工具调用归因到其成因。 AttriGuard(2026 年 3 月)通过对工具调用做因果归因来防御 IPI——区分源自合法任务的动作与由获取内容注入的动作。关于这一总体思路,参见我们关于以因果归因防御间接注入的文章。
缩小抵达规划器的不可信面。 在智能体推理之前,先用”干净”模型对第三方内容做结构化抽取或摘要,把工具定义与 system prompt 放在独立段落,避免把大块原始内容直接倒入上下文——否则被注入的指令会在多个步骤中累积影响力。
以自适应、多步方式测试。 不要用单轮注入字符串去认证一个智能体。在完整的工具调用轨迹上重放攻击,度量劫持率,而不只是首轮拒答。一个能扛住一轮的防御,常常在第三步就崩溃。

状态

项目	参考	日期	备注
脆弱性论文	arXiv 2604.03870	2026-04-04	6 防御 × 4 IPI 向量 × 9 模型,多步
关键正向结果	RepE 熔断器	同一论文	在落实前拦截未授权动作
威胁分类学 + AGENTPI	arXiv 2602.10453	2026-02	依赖上下文的智能体任务击败无上下文防御
AttriGuard 防御	arXiv 2603.10749	2026-03	工具调用的因果归因
框架	致命三要素	2025-06	为何具备数据 + 不可信输入 + 外泄通道的智能体易受攻击

要点不是”又一篇 IPI 论文”。而是:大多数团队部署的防御——提示层的标签与警告——正是这次评估所打破的,有时还会让智能体更听命于攻击者。能够存活的缓解措施监控智能体的内部状态并约束其动作。请用多步、自适应的注入重新校准你的智能体,否则就把你的单轮通过率当作虚构。

脆弱的智能体:间接注入在多步工具调用中依然奏效

这是什么

它如何运作

为何重要

防御

状态

Sources