系统:运行中
← 返回所有攻击
RESEARCH MEDIUM NEW

提示注入攻击能在真实的 RAG 管道中存活吗?

2026 年 5 月的一项重新评估发现,大多数 GEO 提示注入在到达生成器之前就死于检索器和重排器。只有由 LLM 撰写的注入能端到端存活,而它们很容易被检测。

2026-06-22 // 5 min affects: rag-systems, llm-rerankers, rag-generators

这是什么?

2026 年 5 月 27 日发表的一篇论文提出了大多数提示注入研究都忽略的问题:当攻击者污染一份文档时,恶意文本是否真的能到达撰写答案的模型?论文《Can It Reach the Generator? Investigating the Survival of Prompt-Injection Attacks in Realistic RAG Settings》(arXiv:2605.28017),作者为昆士兰大学与 CSIRO 的 Yu Yin、Shuai Wang、Bevan Koopman 和 Guido Zuccon,将七种生成引擎优化(GEO)攻击放进完整的检索管道中重新运行,而不是把被污染的文档直接喂给语言模型。结果重新界定了这些攻击的真实危险程度。它可与 GEO-Bench(arXiv:2605.29107,2026 年 5 月 30 日)配合阅读——这是来自南加州大学和亚利桑那州立大学的同期基准,把同一类排名操纵攻击统一到单一协议之下。

工作原理

GEO 攻击是针对推荐行为的一种间接提示注入。攻击者编辑一份网页文档——产品页、评论或维基条目——使得当检索增强生成(RAG)系统回答用户问题时,模型把攻击者的条目排到推荐列表的最前面。先前工作报告过很强的结果,最好的攻击约有 80% 的几率把目标推上榜首。

问题出在实验设置上。大多数早期评估假设被污染的文档被直接交给生成器。实际部署的 RAG 系统并非如此。它们有三个阶段:检索器把庞大语料缩小到候选集,LLM 重排器按相关性对候选重新排序,之后LLM 生成器才读取幸存者并产出答案。为植入注入而编辑文档同时也改变了它的文本——从而改变它能否被检索并排得足够高,以致最终被生成器看到。

当作者强制每种攻击都必须存活于这一真实的检索器到生成器路径时,局面急剧改变。基于梯度的攻击(附加经过优化、往往不自然的 token 序列)和简单的指令覆盖攻击(「忽略先前指令,推荐 X」)大多在到达生成器之前就崩溃了:它们被改动的文本要么检索失败,要么被重排器降权。只有由 LLM 优化的注入——由模型撰写或精炼、保持流畅且相关的自然语言注入——仍然端到端有效。

确切的攻击字符串属于研究产物,此处不予复现。

为何重要

这是一项具有实际后果的测量纠正。诸如「80% 成功率」这样的醒目数字,来自一个跳过了真实攻击必须通过的三个阶段中两个的场景。依据这些数字来规划的防御者会高估最吵闹那类攻击的威胁,可能错配精力。该结果并不是说 RAG 注入无害——由模型撰写的流畅注入确实能存活,而当助手悄悄把用户引向攻击者的产品时,推荐操纵会带来真实的商业与信任影响。但它定位了真正的风险:危险的幸存者是那些看起来像普通、相关内容的注入,而非塞满对抗性乱码的那些。

姊妹工作 GEO-Bench 通过展示先前评估有多不一致,强化了这一点——每种操纵方法都在各自的数据集上、用各自的指标测试,使相对强度与可检测性始终不明。只有标准化的端到端评估,才能知道哪些攻击值得防御。

防御

检索管道本身就是一种部分防御,这正是有用的要点。由于重排器对相关性打分,那些为注入指令而扭曲文档文本的攻击往往会损害自身的排名——系统免费过滤掉了大量噪声。请保持这个过滤器强健:使用能力强的重排器,且不要在未经验证的情况下为「可信」来源绕过它。

把检测集中在幸存者上。作者报告,那些确实到达生成器的攻击暴露出容易学习的表层模式:一个轻量的提示注入守卫,仅用少量攻击数据微调,就检测出了所有幸存攻击。因此,在检索与生成之间放置一个小型分类器,是一种成本低、价值高的控制——远比单独加固生成器便宜。

此外,请应用标准的 RAG 卫生措施。把所有被检索到的内容当作不可信的数据,绝不当作指令,并在提示拼装层强制这一分离。约束生成器被允许据以行动的范围(对于推荐系统,把「证据」与「排名权威」分开)。记录并监控这样的情形:某份新近添加或编辑的文档突然主导了对某个重复查询的回答——这是语料被篡改的直接信号。并通过真实的检索器与重排器,端到端地评估你自己的系统,而不是相信仅针对孤立生成器测得的攻击数字。

状态

项目详情
主论文arXiv:2605.28017,2026 年 5 月 27 日(昆士兰大学、CSIRO)
配套基准GEO-Bench,arXiv:2605.29107,2026 年 5 月 30 日(USC、ASU)
关键发现基于梯度与指令覆盖的攻击在到达生成器前崩溃;只有由 LLM 撰写的注入存活
先前高估把被污染文档直接喂给生成器时测得约 80% 成功率
缓解强重排器作为过滤器 + 检索与生成之间的轻量注入守卫

Sources