保护 RAG:知识访问管线上的四个攻击面
2026 年 6 月的一篇综述将 RAG 安全重新界定为外部知识访问的安全,把 LLM 固有缺陷与 RAG 引入的风险分开,覆盖四个攻击面与三条信任边界。
这是什么?
检索增强生成(RAG)如今是让 LLM 访问私有文档、数据库与最新知识的默认方式,同时也是一个被多数威胁模型处理不当的安全面——因为它们把 RAG 特有的风险混入了笼统的”LLM 安全”之中。2026 年 4 月 9 日发表、6 月 8 日修订的一篇 arXiv 综述——《Securing Retrieval-Augmented Generation: A Taxonomy of Attacks, Defenses, and Future Directions》,作者为香港理工大学与香港科技大学(广州)的 Yuming Xu 等人——提出了一个更清晰的界定:RAG 安全在本质上关乎外部知识访问管线的安全,而非模型参数或用户提示。这一重新界定改变了我们寻找攻击的位置,也改变了部署防护的位置。
工作原理
该综述将任意 RAG 系统抽象为六个阶段的工作流:外部来源提供原始内容;摄取管线将其解析并索引为可检索的知识基底;检索与重排为某次查询挑选候选证据;上下文组装构建模型可见的提示;生成器作答;系统在记录日志与可补救的前提下返回响应。沿着这条路径,它识别出三条信任边界与四个攻击面。
第一个面是检索前的知识基底污染——在任何查询运行之前就投毒语料库。由于被植入的内容随后会作为合法证据被检索出来,它会在不同查询、用户与会话之间持续存在。综述梳理了语料与文档投毒、针对摄取工具链的攻击(隐藏在常见文档格式中的恶意内容)、对基于图与多模态存储的投毒,以及把攻击者控制的依赖推入生成代码的面向代码的投毒。我们在能在重排后存活的语料投毒与隐蔽的 RAG 语料投毒中介绍过具体案例。
第二个面是检索时的访问操纵:扭曲、重定向或抑制文档的选择,通常是逐查询进行,甚至在攻击者只能探测检索接口的黑盒环境中也成立。第三个、也是作者认为”最重要”的边界,是下游检索上下文的滥用——一旦检索到的证据成为模型可见的上下文,不可信的外部数据就能直接左右生成,这正是间接提示注入的机制。第四个是知识外泄与隐私攻击,攻击者反向利用接口,从基底中推断或提取敏感记录;参见针对 RAG 的成员推断。
至关重要的是,作者定义了一条操作边界以保持范围诚实:只有当外部知识是威胁的主要载体、当知识访问产生了仅用提示时不存在的入口、或当检索实质性地增加了威胁的持续性、可转移性或影响半径时,该风险才算作 RAG 引入的风险。纯提示越狱与纯参数化记忆被明确排除在外。
为什么重要
这一重新界定之所以重要,是因为它解释了为何 RAG 的失效比短暂的提示失效更糟。被投毒的基底把一次性的、局限于单次查询的事件,变成了对共享状态的持续性沦陷——可跨查询复用、可跨用户转移,且更难检测、归因与清除。综述直言不讳地总结:当前的防御”在很大程度上仍是被动且碎片化的”。2026 年 3 月的一篇并行综述 《Towards Secure RAG》 在威胁、防御与基准方面得出了类似结论,而真实环境中的间接提示注入表明下游面正在真实系统中被利用,而非仅停留在实验室。对于部署 RAG 助手的团队,现实含义是:在提示层做输入过滤是错误的、也是最后的防御位置。
防御
综述把补救组织为沿同一管线分布的控制,每个面对应一层。请把你的防御映射到它们真正保护的边界:
- 知识库完整性与溯源(检索前)。 把摄取视为一条信任边界。在解析时校验并清洗文档,按片段追踪溯源以便归因与撤销被投毒内容,并对语料的写入访问设门禁。这里持续性是攻击者的优势:保留补救能力——重新索引与清除——而不仅是检测。
- 检索时的访问加固。 针对相关性操纵加固检索器与重排器:监控异常的排名漂移,多样化或集成检索,并避免信任单一、可能被植入后门的稠密检索器。混合检索防御会抬高单载荷投毒的成本。
- 检索后的上下文隔离(下游)。 假定检索到的文本可能包含指令。把证据与命令隔离,以通道而非来源内部所写的内容来标记来源权威性——这正是控制信号冒充的要点——并限制生成器可据以行动的范围。
- 访问控制、隐私与机密性(外泄)。 实施按文档的授权,使检索不会返回用户不应看到的记录,并对探测基底以提取数据的响应模式进行限流或审计。
综述面向未来的建议是在整个知识访问生命周期上采取分层、感知边界的防护,而非单一护栏。没有任何单一控制能封闭整个面;这套分类法的意义在于确保四个面中没有任何一个被弃守。
状态
| 项目 | 详情 |
|---|---|
| 来源 | 《Securing RAG: A Taxonomy of Attacks, Defenses, and Future Directions》(arXiv:2604.08304) |
| 发表 | v1 2026 年 4 月 9 日;2026 年 6 月 8 日修订 |
| 单位 | 香港理工大学;香港科技大学(广州) |
| 框架 | 六阶段管线、三条信任边界、四个攻击面 |
| 核心论点 | 保护 RAG = 保护外部知识访问管线 |
| 防御现状 | ”在很大程度上被动且碎片化”;建议分层、感知边界的防御 |
持久的要点:不要再问你的 LLM 是否”安全”,而要问攻击者会跨越你知识访问管线的哪条边界——因为在 RAG 中,语料库是共享状态,而共享状态在你补救之前会一直处于沦陷状态。