上下文断裂分解:利用来源溯源缺口的越狱攻击
2026年6月8日的一篇arXiv论文形式化了工具型智能体中的「溯源缺口」:危害行为由分散在时间中的若干无害工具操作拼合而成,成功率最高提升28.3个百分点。
这是什么?
2026年6月8日,Lin、Yang、Guo、Nale、Fleming 与 Cheng 发表了 Context-Fractured Decomposition Attacks on Tool-Using LLM Agents: Exploiting Artifact Provenance Gaps(arXiv:2606.09084,cs.CR / cs.AI)。论文指出了越狱研究长期忽视的一种部署失效模式:在真实智能体中,危险请求从不集中于一处,而是分散在各个工具操作之间、分散在时间中,监督单一步骤的安全裁判看不到任何异常。
作者将该缺口本身称为溯源缺口(provenance gap),将利用它的技术称为上下文断裂分解(Context-Fractured Decomposition,CFD)。报告结果:相对于现有最强基线,CFD 将攻击成功率提升最高达 28.3 个百分点,「即便面对强单轮裁判亦然」。这是在基准上的研究结果,并非针对某个具名生产系统的实战利用。
工作原理
工具型智能体通过写入产物(artifact)作用于世界——工作区中的文件、日志中的行、记忆库中的条目。这些产物会持久存在,后续某一步(有时是另一个智能体实例,有时是同一工作流的较晚阶段)会把它们当作可信状态读回。
CFD 正是利用了这种持久性。其核心思路(概念层面)如下:
阶段 A(看似无害) 写入产物 阶段 B(看似无害)
------------------------- ---------------------- -----------------------------
智能体执行一个无害的 文件 / 日志 / 后续某步读回该产物并执行
初始操作,悄悄保留 记忆条目,承载一个 另一个无害操作——但 A + B 的
一段上下文片段 [看似无害]的片段 组合却是有害的
没有任何单个工具调用携带可被识别的有害指令。危害仅源于被分别放行的若干步骤之间经由产物中介的延迟组合。论文将其与 Crescendo、Tree of Attacks(TAP,arXiv:2312.02119)等「多轮」越狱作对比——后者仍假设防御方能从头到尾看到一段连续对话。而在真实流水线中,规则执行被分散在工具、模块与时间之间,该假设不成立,将片段追溯回其来源的溯源链通常根本没有被记录。
作者刻意不提供可直接套用的攻击配方。他们用轨迹级诊断对该失效模式进行检测,并勾勒出一个可验证的缓解方向,而非发布可复用的攻击载荷。
为什么重要
这项工作把领域内已有的担忧加以推广。来源溯源与「数据不等于权威」的原则一直是反复出现的主题——参见基于上下文完整性的解读与如 ARGUS 的溯源图防御。CFD 把时间跨度进一步拉长:恶意「意图」可以潜伏在产物中,在另一个智能体实例或工作流的较晚阶段引爆。
由此带来三点现实影响。其一,单轮、单对话护栏对此存在结构性盲区:孤立地为每条消息或每次工具调用打分的裁判,会放行每一步。其二,攻击面随共享状态而扩大——智能体彼此读取文件、日志与记忆越多,断裂载荷可供潜伏的位置就越多。其三,它正落入 OWASP 2026 智能体应用十大风险(工具滥用、记忆/状态投毒)的范畴,却带有审计流水线极少建模的时间维度。
防御
论文自身提出的方向是溯源谱系标记(provenance lineage tagging),且具有良好的可推广性:
-
为产物标记谱系,而不仅是内容。 智能体写入的每个文件、每行日志、每条记忆条目,都应携带其来源、由哪一步产生、在何种请求下产生。读取时继承该谱系,下游裁判便能就组合(「这个操作加那个产物」)进行推理,而不仅看当前一步。
-
把规则执行从「按轮」转为「按轨迹」。 评估整条轨迹,而非孤立消息。只有能看到 A→产物→B 链条的跨步裁判,才能抓住只存在于「连接处」的风险。
-
读回时把智能体自己写的产物视为不可信输入。 你的智能体三步之前写的文件仍是数据,而非指令。当它重新进入上下文时应重新校验,跨智能体或跨会话边界时尤甚。
-
在实例与阶段之间隔离状态。 默认按任务、按租户限定记忆与工作区。跨实例共享产物应当是一项显式且可审计的授权——绝不能是无处不在的默认能力。
-
采用具有可证明边界的设计模式。 Design Patterns for Securing LLM Agents against Prompt Injections(arXiv:2506.08837)主张约束智能体在接触不可信内容之后能做什么;将其与谱系标记结合,可让约束随数据一同传递。
-
在可观测性中加入轨迹级诊断。 记录溯源链,使事后审查(及检测规则)能够发现稍后被组合的片段。你无法防御一个从未记录过的连接。
现状
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| CFD 论文(v1) | arXiv:2606.09084 | 2026-06-08 | 定义「溯源缺口」;跨上下文越狱攻击族 |
| 报告影响 | arXiv:2606.09084 | 2026-06-08 | 相对 SOTA 成功率最高 +28.3 个百分点,即便面对强单轮裁判 |
| 缓解方向 | arXiv:2606.09084 | 2026-06-08 | 溯源谱系标记 + 轨迹级诊断 |
| 相关基线 | TAP(arXiv:2312.02119) | 2023-12 | 假设对话可见的多轮越狱 |
| 防御框架 | Design Patterns(arXiv:2506.08837) | 2025-06 | 面向工具型智能体的可证明抗性模式 |
要点不是一种新载荷,而是一个新的观察位置。如果你的安全审查是围绕「消息」推理的,那它盯错了单位。真正处于风险中的单位是轨迹,而拼合成危害的那些片段,可能并不出现在同一段对话、同一个会话,甚至同一个智能体之中。
本文以防御为目的,介绍已公开发表的学术研究。来源论文刻意不提供可复用的攻击载荷,并提出了一种可验证的缓解方案。