DEFENSE MEDIUM NEW

因果归因：对抗间接提示注入的新兴防御

2026 年初的一批论文——CausalArmor 与 AttriGuard——通过追问哪些动作是由不可信内容、而非用户意图所导致，来防护具备工具调用能力的智能体。本文梳理这一因果归因防御路线。

2026-06-01 // 6 min affects: tool-calling-agents, rag-agents, mcp-agents

这是什么？

间接提示注入（IPI）把指令隐藏在智能体读取的内容里——网页、邮件、RAG 文档、工具返回结果——使智能体把攻击者的文本当作合法指令来执行。Greshake 等人在 2023 年首次系统描述了这一攻击类别（arXiv 2302.12173），它至今仍高居 OWASP LLM 应用十大风险之首。新的，是防御的角度。

2026 年 2 月至 4 月，多个研究团队——从不同方向——汇聚到同一个想法：与其试图识别恶意字符串，不如追问某次工具调用，究竟是由用户请求在因果上解释，还是由智能体刚刚摄入的不可信内容所驱动。本文介绍这一新兴的”因果归因”防御路线，围绕两篇代表性论文展开——CausalArmor（arXiv 2602.07918，2026 年 2 月 8 日）与 AttriGuard（arXiv 2603.10749，2026 年 3 月 11 日）——并引用阐明其必要性的评测论文《Your Agent is More Brittle Than You Think》（arXiv 2604.03870，2026 年 4 月）。

工作原理

共同的直觉是一个反事实判断：一个合法动作，即便移除或中和不可信的观测，仍应当由用户指令来解释。一个只在智能体读取了攻击者可控内容之后才出现的动作，是可疑的。

                       智能体提出的动作
                                  |
                +-----------------+------------------+
                |                                    |
   在不可信观测被削弱 / 移除          该动作是否仍然产生？
   的条件下重新评估                   ├── 是 → 归因于"用户意图" → 放行
                                      └── 否 → 归因于"不可信片段" → 阻断 / 清洗

CausalArmor 以轻量的”留一法”（leave-one-out）消融在特权决策点实现这一思路。它衡量每个不可信片段对下一动作的贡献，仅当某不可信片段压过用户意图时才触发清洗，而非持续运行的昂贵过滤。它还加入了对推理链的回溯式遮蔽，使智能体不会在已被注入文本污染的推理轨迹上继续行动。作者在 AgentDojo 与 DoomArena 上进行了评测。

AttriGuard 把同一直觉表述为动作级因果归因，通过并行的反事实测试实现：对每个被提议的工具调用，它在”控制被削弱”的外部观测视图下重跑智能体，检查该调用是否仍会产生。仍然存在的调用归因于用户意图；消失的调用归因于不可信观测并被拦截。

此处不复现任何攻击载荷——重点是机制，而非某条具体的注入字符串。

为何重要

那篇关于”脆弱性”的论文给出了紧迫感。它在动态、多步、带工具调用的环境中，针对四类 IPI 攻击向量、跨九个基础模型评测了六种防御，发现那些在单轮基准上看似稳健的防御，在真实的智能体循环中会退化。基于字符串匹配或分类器的过滤，常被推理密集或前所未见的载荷绕过。

因果归因之所以有吸引力，在于它瞄准的是机制——是不可信内容导致了这个动作吗？——而非表面——这段文字看起来像恶意的吗？攻击者改写载荷以躲避分类器要容易得多，而要让注入的指令看起来像用户自己的请求则困难得多。

有两个权衡需要明确说出。成本：AttriGuard 报告反事实重跑带来约 2× 的 token 成本；而 CausalArmor 的卖点正是只在归因标记出占主导的不可信片段时才行动，从而避免持续开销。覆盖面：所公布的 0% 攻击成功率，是在特定基准上的静态攻击下测得的。能刻意构造载荷以在消融下存活——使恶意动作即便被削弱也显得”必要”——的自适应攻击者，仍是开放的研究问题。

防御

因果归因是一层，而非万能药。一套务实的组合：

标注来源。 把智能体读取的每个片段（工具输出、检索文档、网页）默认标记为不可信，并在整个推理过程中保留该标签。
在特权动作处加入反事实检查。 在高影响的工具调用（发送、删除、付款、外传）之前，像 CausalArmor 与 AttriGuard 那样，在不可信观测被削弱时重新评估该动作是否仍然成立。
遮蔽被污染的推理。 阻止智能体在已被注入文本污染的推理链上继续行动。
始终关注最小权限与致命三要素。 归因降低风险；切断智能体对私有数据、不可信内容或外传通道的访问，则能消除风险。
与来源图防御配合。 像 Argus 这类方法追踪数据流；因果归因则推理动作的必要性。二者互补。
在多步循环中测试，而非单轮。 这正是那篇脆弱性论文的教训：任何 IPI 防御，都应在它实际运行的动态工具调用环境中验证。

状态

工作	出处	日期	贡献
CausalArmor	arXiv 2602.07918	2026-02-08	留一法消融 + 推理遮蔽；选择性（非持续）清洗
AttriGuard	arXiv 2603.10749	2026-03-11	通过反事实重跑实现动作级因果归因；静态下约 0% ASR、约 3% 效用损失、约 2× token
Your Agent is More Brittle Than You Think	arXiv 2604.03870	2026-04	6 防御 × 4 IPI 向量 × 9 LLM，多步环境；表明单轮防御在智能体循环中退化
间接提示注入（起源）	arXiv 2302.12173	2023-02	首次系统描述 IPI 类别

结论不是”IPI 已被解决”，而是：防御的前沿正在从检测恶意文本转向将每个动作归因于其成因——而你采用的任何防御，都应在真实、多步的智能体中加以衡量，因为脆弱的防御正是在那里失守。

因果归因：对抗间接提示注入的新兴防御

这是什么？

工作原理

为何重要

防御

状态

Sources