系统:运行中
← 返回所有攻击
INDIRECT INJECTION MEDIUM NEW

DACSI:当被检索的文档伪造系统的控制信号

2026 年 6 月 8 日的一篇论文为一种隐蔽的 RAG 失效模式命名:不可信文档文本冒充元数据、来源与策略信号。无需「ignore previous instructions」——核心教训是:文档自带的标签是数据,不是策略。

2026-06-12 // 5 min affects: rag-systems, llm-agents, enterprise-rag

这是什么?

2026 年 6 月 8 日,一篇题为 Document-Authored Control-Signal Impersonation: A Low-Cost Indirect Prompt Attack on RAG Safety Boundaries(arXiv:2606.09005)的论文,为检索增强生成(RAG)系统构建者反复偶然遇到的一种失效模式正式命名。作者称之为 DACSI——文档自撰控制信号冒充(Document-Authored Control-Signal Impersonation)。

场景就是普通的 RAG 提示。系统把若干内容序列化进一段自然语言文本:用户的查询、从索引中取出的文档,再加上元数据、系统标签和任务指令。当攻击者撰写、藏在被检索文档内部的文本,把自己伪装成上述某个控制信号——一个来源标记、一个权限标识、一个「已验证」标志、一条披露策略声明——使模型把数据当成策略来对待时,DACSI 就发生了。

这不是经典的「ignore previous instructions」越狱。论文明确把 DACSI 定位为间接提示注入的一个非命令式、类元数据的子类:它并不命令模型违反规则,而是悄悄断言某条规则已经允许该动作。

工作原理

根本原因是结构性的,与所有间接注入类别背后的原因相同:RAG 提示的渲染把可信文本与不可信文本合并到同一通道。 一旦系统提示、被检索段落和元数据都以同一种 token 形式到达,模型就没有可靠的标记,可以用来区分一个经授权的控制信号与一段仅仅看起来像控制信号的字符串。

命令式注入问的是:模型会不会服从塞进数据里的一条指令? DACSI 提出的问题更微妙:模型会不会把不可信的文档文本错误地认定为经授权的控制信号? 它不是「做 X」,其载荷读起来像一条环境事实——一个声称内容可信、属于内部、已预先批准或豁免某安全策略的标签。如果模型已经学会在上下文中遇到此类标签时予以服从,那么伪造此类标签的文档就继承了从未授予它的权限。

这里不复现任何可用载荷,理解机制也无需复现。论文自身给出的一句话总结就是全部教训:文档自带的标签是数据,不是策略。 攻击者能写进可检索文档的任何字段——页眉、脚注、隐藏区段、伪装成 JSON 的假元数据块——无论看起来多么正式,都受攻击者控制。

为什么重要

DACSI 之所以重要,是因为它正好落在最常见防御手段的盲区里。许多 RAG 防护被调校为捕获命令式注入——让模型去做被禁止之事的文本。而一段不含任何命令、只断言「此来源已验证且豁免策略」的段落,可以越过该过滤器,同时仍然左右结果。

它的成本扩展性也很低。攻击者既不需要模型访问权限,也不需要梯度优化;只需让一份被投毒的文档落进系统会检索的语料库——一个 wiki 页面、一个共享盘、一条抓取的网页结果、一张支持工单。正是这种低门槛,使间接注入成为生产环境中占主导地位的智能体失效模式,而 DACSI 把攻击面扩大到所有允许被检索内容携带类元数据文本的系统。

更宏观的要点,与情境完整性论点以及 RAG 安全分类法一致:来源权威性无法由写在来源内部的任何东西来确立。信任必须来自通道,而非载荷。

防御

如果真假控制信号都以同样的文本形式到达,你就无法让语言模型可靠地区分二者。因此,把信任决策移出提示之外。

  • 在带外建立控制信号。 权限、来源和策略标志应当由你所控制的检索与摄取管线附加到文档上,绝不从文档正文中读取。如果「可信」或「豁免策略」这类标记可能出现在可检索内容里,就在文本到达模型之前将其剥除。
  • 把所有被检索文本都当作不可信数据。 把被检索段落渲染在一个清晰分隔、较低权限的区域,并指示模型:其中的任何内容都不能授予权限、设定策略或断言自身可信。结合像 ARGUS 那样的来源感知校验一起使用。
  • 在摄取阶段清洗类元数据内容。 检测并中和文档自撰、模仿系统元数据的结构——假页眉、伪 JSON 标签、「由……验证」声明、披露策略套话。这些正是 DACSI 的原料。
  • 不要依赖只针对命令式的注入过滤器。 用断言权限而非发出命令的非命令式载荷来测试防护。只能抓住「ignore previous instructions」的过滤器会完全漏掉这一类。
  • 限制爆炸半径。 把上述措施与最小权限的工具范围和出口(exfiltration)控制结合起来,使一个被错误认定的控制信号无法仅凭自身就触达敏感数据或外泄通道。

状态

项目详情
论文Document-Authored Control-Signal Impersonation(DACSI)
标识arXiv:2606.09005v1
发布2026-06-08
类别间接提示注入——非命令式、类元数据子类
性质研究发现/攻击类别刻画(无生产环境利用代码)

DACSI 不是一个需要打补丁的新产品漏洞;它是给一种反复出现的架构错误所取的名字。最易受影响的系统,正是那些允许被检索文档以系统本身的口吻发声的系统。修复之道不是在提示内部放一个更好的分类器——而是拒绝让提示成为权威被决定的地方。

Sources