RESEARCH MEDIUM NEW

保护 RAG：知识访问管线上的四个攻击面

2026 年 6 月的一篇综述将 RAG 安全重新界定为外部知识访问的安全，把 LLM 固有缺陷与 RAG 引入的风险分开，覆盖四个攻击面与三条信任边界。

2026-06-19 // 6 min affects: rag-systems, graphrag, multimodal-rag, enterprise-ai-assistants

这是什么？

检索增强生成（RAG）如今是让 LLM 访问私有文档、数据库与最新知识的默认方式，同时也是一个被多数威胁模型处理不当的安全面——因为它们把 RAG 特有的风险混入了笼统的”LLM 安全”之中。2026 年 4 月 9 日发表、6 月 8 日修订的一篇 arXiv 综述——《Securing Retrieval-Augmented Generation: A Taxonomy of Attacks, Defenses, and Future Directions》，作者为香港理工大学与香港科技大学（广州）的 Yuming Xu 等人——提出了一个更清晰的界定：RAG 安全在本质上关乎外部知识访问管线的安全，而非模型参数或用户提示。这一重新界定改变了我们寻找攻击的位置，也改变了部署防护的位置。

工作原理

该综述将任意 RAG 系统抽象为六个阶段的工作流：外部来源提供原始内容；摄取管线将其解析并索引为可检索的知识基底；检索与重排为某次查询挑选候选证据；上下文组装构建模型可见的提示；生成器作答；系统在记录日志与可补救的前提下返回响应。沿着这条路径，它识别出三条信任边界与四个攻击面。

第一个面是检索前的知识基底污染——在任何查询运行之前就投毒语料库。由于被植入的内容随后会作为合法证据被检索出来，它会在不同查询、用户与会话之间持续存在。综述梳理了语料与文档投毒、针对摄取工具链的攻击（隐藏在常见文档格式中的恶意内容）、对基于图与多模态存储的投毒，以及把攻击者控制的依赖推入生成代码的面向代码的投毒。我们在能在重排后存活的语料投毒与隐蔽的 RAG 语料投毒中介绍过具体案例。

第二个面是检索时的访问操纵：扭曲、重定向或抑制文档的选择，通常是逐查询进行，甚至在攻击者只能探测检索接口的黑盒环境中也成立。第三个、也是作者认为”最重要”的边界，是下游检索上下文的滥用——一旦检索到的证据成为模型可见的上下文，不可信的外部数据就能直接左右生成，这正是间接提示注入的机制。第四个是知识外泄与隐私攻击，攻击者反向利用接口，从基底中推断或提取敏感记录；参见针对 RAG 的成员推断。

至关重要的是，作者定义了一条操作边界以保持范围诚实：只有当外部知识是威胁的主要载体、当知识访问产生了仅用提示时不存在的入口、或当检索实质性地增加了威胁的持续性、可转移性或影响半径时，该风险才算作 RAG 引入的风险。纯提示越狱与纯参数化记忆被明确排除在外。

为什么重要

这一重新界定之所以重要，是因为它解释了为何 RAG 的失效比短暂的提示失效更糟。被投毒的基底把一次性的、局限于单次查询的事件，变成了对共享状态的持续性沦陷——可跨查询复用、可跨用户转移，且更难检测、归因与清除。综述直言不讳地总结：当前的防御”在很大程度上仍是被动且碎片化的”。2026 年 3 月的一篇并行综述《Towards Secure RAG》在威胁、防御与基准方面得出了类似结论，而真实环境中的间接提示注入表明下游面正在真实系统中被利用，而非仅停留在实验室。对于部署 RAG 助手的团队，现实含义是：在提示层做输入过滤是错误的、也是最后的防御位置。

防御

综述把补救组织为沿同一管线分布的控制，每个面对应一层。请把你的防御映射到它们真正保护的边界：

知识库完整性与溯源（检索前）。 把摄取视为一条信任边界。在解析时校验并清洗文档，按片段追踪溯源以便归因与撤销被投毒内容，并对语料的写入访问设门禁。这里持续性是攻击者的优势：保留补救能力——重新索引与清除——而不仅是检测。
检索时的访问加固。 针对相关性操纵加固检索器与重排器：监控异常的排名漂移，多样化或集成检索，并避免信任单一、可能被植入后门的稠密检索器。混合检索防御会抬高单载荷投毒的成本。
检索后的上下文隔离（下游）。 假定检索到的文本可能包含指令。把证据与命令隔离，以通道而非来源内部所写的内容来标记来源权威性——这正是控制信号冒充的要点——并限制生成器可据以行动的范围。
访问控制、隐私与机密性（外泄）。 实施按文档的授权，使检索不会返回用户不应看到的记录，并对探测基底以提取数据的响应模式进行限流或审计。

综述面向未来的建议是在整个知识访问生命周期上采取分层、感知边界的防护，而非单一护栏。没有任何单一控制能封闭整个面；这套分类法的意义在于确保四个面中没有任何一个被弃守。

状态

项目	详情
来源	《Securing RAG: A Taxonomy of Attacks, Defenses, and Future Directions》（arXiv:2604.08304）
发表	v1 2026 年 4 月 9 日；2026 年 6 月 8 日修订
单位	香港理工大学；香港科技大学（广州）
框架	六阶段管线、三条信任边界、四个攻击面
核心论点	保护 RAG = 保护外部知识访问管线
防御现状	”在很大程度上被动且碎片化”；建议分层、感知边界的防御

持久的要点：不要再问你的 LLM 是否”安全”，而要问攻击者会跨越你知识访问管线的哪条边界——因为在 RAG 中，语料库是共享状态，而共享状态在你补救之前会一直处于沦陷状态。

保护 RAG：知识访问管线上的四个攻击面

这是什么？

工作原理

为什么重要

防御

状态

Sources