系统:运行中
← 返回所有攻击
DEFENSE MEDIUM NEW

因果归因:对抗间接提示注入的新兴防御

2026 年初的一批论文——CausalArmor 与 AttriGuard——通过追问哪些动作是由不可信内容、而非用户意图所导致,来防护具备工具调用能力的智能体。本文梳理这一因果归因防御路线。

2026-06-01 // 6 min affects: tool-calling-agents, rag-agents, mcp-agents

这是什么?

间接提示注入(IPI)把指令隐藏在智能体读取的内容里——网页、邮件、RAG 文档、工具返回结果——使智能体把攻击者的文本当作合法指令来执行。Greshake 等人在 2023 年首次系统描述了这一攻击类别(arXiv 2302.12173),它至今仍高居 OWASP LLM 应用十大风险之首。新的,是防御的角度。

2026 年 2 月至 4 月,多个研究团队——从不同方向——汇聚到同一个想法:与其试图识别恶意字符串,不如追问某次工具调用,究竟是由用户请求在因果上解释,还是由智能体刚刚摄入的不可信内容所驱动。本文介绍这一新兴的”因果归因”防御路线,围绕两篇代表性论文展开——CausalArmorarXiv 2602.07918,2026 年 2 月 8 日)与 AttriGuardarXiv 2603.10749,2026 年 3 月 11 日)——并引用阐明其必要性的评测论文《Your Agent is More Brittle Than You Think》(arXiv 2604.03870,2026 年 4 月)。

工作原理

共同的直觉是一个反事实判断:一个合法动作,即便移除或中和不可信的观测,仍应当由用户指令来解释。一个只在智能体读取了攻击者可控内容之后才出现的动作,是可疑的。

                       智能体提出的动作
                                  |
                +-----------------+------------------+
                |                                    |
   在不可信观测被削弱 / 移除          该动作是否仍然产生?
   的条件下重新评估                   ├── 是 → 归因于"用户意图" → 放行
                                      └── 否 → 归因于"不可信片段" → 阻断 / 清洗

CausalArmor 以轻量的”留一法”(leave-one-out)消融在特权决策点实现这一思路。它衡量每个不可信片段对下一动作的贡献,仅当某不可信片段压过用户意图时才触发清洗,而非持续运行的昂贵过滤。它还加入了对推理链的回溯式遮蔽,使智能体不会在已被注入文本污染的推理轨迹上继续行动。作者在 AgentDojo 与 DoomArena 上进行了评测。

AttriGuard 把同一直觉表述为动作级因果归因,通过并行的反事实测试实现:对每个被提议的工具调用,它在”控制被削弱”的外部观测视图下重跑智能体,检查该调用是否仍会产生。仍然存在的调用归因于用户意图;消失的调用归因于不可信观测并被拦截。

此处不复现任何攻击载荷——重点是机制,而非某条具体的注入字符串。

为何重要

那篇关于”脆弱性”的论文给出了紧迫感。它在动态、多步、带工具调用的环境中,针对四类 IPI 攻击向量、跨九个基础模型评测了六种防御,发现那些在单轮基准上看似稳健的防御,在真实的智能体循环中会退化。基于字符串匹配或分类器的过滤,常被推理密集或前所未见的载荷绕过。

因果归因之所以有吸引力,在于它瞄准的是机制——是不可信内容导致了这个动作吗?——而非表面——这段文字看起来像恶意的吗?攻击者改写载荷以躲避分类器要容易得多,而要让注入的指令看起来像用户自己的请求则困难得多。

有两个权衡需要明确说出。成本:AttriGuard 报告反事实重跑带来约 2× 的 token 成本;而 CausalArmor 的卖点正是只在归因标记出占主导的不可信片段时才行动,从而避免持续开销。覆盖面:所公布的 0% 攻击成功率,是在特定基准上的静态攻击下测得的。能刻意构造载荷以在消融下存活——使恶意动作即便被削弱也显得”必要”——的自适应攻击者,仍是开放的研究问题。

防御

因果归因是一层,而非万能药。一套务实的组合:

  1. 标注来源。 把智能体读取的每个片段(工具输出、检索文档、网页)默认标记为不可信,并在整个推理过程中保留该标签。
  2. 在特权动作处加入反事实检查。 在高影响的工具调用(发送、删除、付款、外传)之前,像 CausalArmor 与 AttriGuard 那样,在不可信观测被削弱时重新评估该动作是否仍然成立。
  3. 遮蔽被污染的推理。 阻止智能体在已被注入文本污染的推理链上继续行动。
  4. 始终关注最小权限与致命三要素 归因降低风险;切断智能体对私有数据、不可信内容或外传通道的访问,则能消除风险。
  5. 与来源图防御配合。Argus 这类方法追踪数据流;因果归因则推理动作的必要性。二者互补。
  6. 在多步循环中测试,而非单轮。 这正是那篇脆弱性论文的教训:任何 IPI 防御,都应在它实际运行的动态工具调用环境中验证。

状态

工作出处日期贡献
CausalArmorarXiv 2602.079182026-02-08留一法消融 + 推理遮蔽;选择性(非持续)清洗
AttriGuardarXiv 2603.107492026-03-11通过反事实重跑实现动作级因果归因;静态下约 0% ASR、约 3% 效用损失、约 2× token
Your Agent is More Brittle Than You ThinkarXiv 2604.038702026-046 防御 × 4 IPI 向量 × 9 LLM,多步环境;表明单轮防御在智能体循环中退化
间接提示注入(起源)arXiv 2302.121732023-02首次系统描述 IPI 类别

结论不是”IPI 已被解决”,而是:防御的前沿正在从检测恶意文本转向将每个动作归因于其成因——而你采用的任何防御,都应在真实、多步的智能体中加以衡量,因为脆弱的防御正是在那里失守。

Sources