AGENTS MEDIUM NEW

上下文断裂分解：利用来源溯源缺口的越狱攻击

2026年6月8日的一篇arXiv论文形式化了工具型智能体中的「溯源缺口」：危害行为由分散在时间中的若干无害工具操作拼合而成，成功率最高提升28.3个百分点。

2026-06-11 // 5 min affects: llm-agents, tool-use, multi-agent-systems, agent-pipelines

这是什么？

2026年6月8日，Lin、Yang、Guo、Nale、Fleming 与 Cheng 发表了 Context-Fractured Decomposition Attacks on Tool-Using LLM Agents: Exploiting Artifact Provenance Gaps（arXiv:2606.09084，cs.CR / cs.AI）。论文指出了越狱研究长期忽视的一种部署失效模式：在真实智能体中，危险请求从不集中于一处，而是分散在各个工具操作之间、分散在时间中，监督单一步骤的安全裁判看不到任何异常。

作者将该缺口本身称为溯源缺口（provenance gap），将利用它的技术称为上下文断裂分解（Context-Fractured Decomposition，CFD）。报告结果：相对于现有最强基线，CFD 将攻击成功率提升最高达 28.3 个百分点，「即便面对强单轮裁判亦然」。这是在基准上的研究结果，并非针对某个具名生产系统的实战利用。

工作原理

工具型智能体通过写入产物（artifact）作用于世界——工作区中的文件、日志中的行、记忆库中的条目。这些产物会持久存在，后续某一步（有时是另一个智能体实例，有时是同一工作流的较晚阶段）会把它们当作可信状态读回。

CFD 正是利用了这种持久性。其核心思路（概念层面）如下：

阶段 A（看似无害）          写入产物                 阶段 B（看似无害）
-------------------------   ----------------------   -----------------------------
智能体执行一个无害的        文件 / 日志 /            后续某步读回该产物并执行
初始操作，悄悄保留          记忆条目，承载一个       另一个无害操作——但 A + B 的
一段上下文片段              [看似无害]的片段          组合却是有害的

没有任何单个工具调用携带可被识别的有害指令。危害仅源于被分别放行的若干步骤之间经由产物中介的延迟组合。论文将其与 Crescendo、Tree of Attacks（TAP，arXiv:2312.02119）等「多轮」越狱作对比——后者仍假设防御方能从头到尾看到一段连续对话。而在真实流水线中，规则执行被分散在工具、模块与时间之间，该假设不成立，将片段追溯回其来源的溯源链通常根本没有被记录。

作者刻意不提供可直接套用的攻击配方。他们用轨迹级诊断对该失效模式进行检测，并勾勒出一个可验证的缓解方向，而非发布可复用的攻击载荷。

为什么重要

这项工作把领域内已有的担忧加以推广。来源溯源与「数据不等于权威」的原则一直是反复出现的主题——参见基于上下文完整性的解读与如 ARGUS 的溯源图防御。CFD 把时间跨度进一步拉长：恶意「意图」可以潜伏在产物中，在另一个智能体实例或工作流的较晚阶段引爆。

由此带来三点现实影响。其一，单轮、单对话护栏对此存在结构性盲区：孤立地为每条消息或每次工具调用打分的裁判，会放行每一步。其二，攻击面随共享状态而扩大——智能体彼此读取文件、日志与记忆越多，断裂载荷可供潜伏的位置就越多。其三，它正落入 OWASP 2026 智能体应用十大风险（工具滥用、记忆/状态投毒）的范畴，却带有审计流水线极少建模的时间维度。

防御

论文自身提出的方向是溯源谱系标记（provenance lineage tagging），且具有良好的可推广性：

为产物标记谱系，而不仅是内容。 智能体写入的每个文件、每行日志、每条记忆条目，都应携带其来源、由哪一步产生、在何种请求下产生。读取时继承该谱系，下游裁判便能就组合（「这个操作加那个产物」）进行推理，而不仅看当前一步。
把规则执行从「按轮」转为「按轨迹」。 评估整条轨迹，而非孤立消息。只有能看到 A→产物→B 链条的跨步裁判，才能抓住只存在于「连接处」的风险。
读回时把智能体自己写的产物视为不可信输入。 你的智能体三步之前写的文件仍是数据，而非指令。当它重新进入上下文时应重新校验，跨智能体或跨会话边界时尤甚。
在实例与阶段之间隔离状态。 默认按任务、按租户限定记忆与工作区。跨实例共享产物应当是一项显式且可审计的授权——绝不能是无处不在的默认能力。
采用具有可证明边界的设计模式。 Design Patterns for Securing LLM Agents against Prompt Injections（arXiv:2506.08837）主张约束智能体在接触不可信内容之后能做什么；将其与谱系标记结合，可让约束随数据一同传递。
在可观测性中加入轨迹级诊断。 记录溯源链，使事后审查（及检测规则）能够发现稍后被组合的片段。你无法防御一个从未记录过的连接。

现状

项目	参考	日期	备注
CFD 论文（v1）	arXiv:2606.09084	2026-06-08	定义「溯源缺口」；跨上下文越狱攻击族
报告影响	arXiv:2606.09084	2026-06-08	相对 SOTA 成功率最高 +28.3 个百分点，即便面对强单轮裁判
缓解方向	arXiv:2606.09084	2026-06-08	溯源谱系标记 + 轨迹级诊断
相关基线	TAP（arXiv:2312.02119）	2023-12	假设对话可见的多轮越狱
防御框架	Design Patterns（arXiv:2506.08837）	2025-06	面向工具型智能体的可证明抗性模式

要点不是一种新载荷，而是一个新的观察位置。如果你的安全审查是围绕「消息」推理的，那它盯错了单位。真正处于风险中的单位是轨迹，而拼合成危害的那些片段，可能并不出现在同一段对话、同一个会话，甚至同一个智能体之中。

本文以防御为目的，介绍已公开发表的学术研究。来源论文刻意不提供可复用的攻击载荷，并提出了一种可验证的缓解方案。

上下文断裂分解：利用来源溯源缺口的越狱攻击

这是什么？

工作原理

为什么重要

防御

现状

Sources