RESEARCH MEDIUM NEW

Sécuriser le RAG : quatre surfaces d'attaque le long du pipeline d'accès au savoir

Une étude de juin 2026 recadre la sécurité du RAG autour de l'accès au savoir externe, séparant les failles propres aux LLM du risque introduit par le RAG sur quatre surfaces et trois frontières de confiance.

2026-06-19 // 7 min affects: rag-systems, graphrag, multimodal-rag, enterprise-ai-assistants

De quoi s’agit-il ?

La génération augmentée par récupération (RAG) est devenue la manière par défaut de donner à un LLM l’accès à des documents privés, à des bases de données et à des connaissances à jour. C’est aussi une surface de sécurité que la plupart des modèles de menace traitent mal, parce qu’ils noient les risques propres au RAG dans la « sûreté générique des LLM ». Une étude publiée sur arXiv le 9 avril 2026 et révisée le 8 juin 2026 — Securing Retrieval-Augmented Generation: A Taxonomy of Attacks, Defenses, and Future Directions, par Yuming Xu et ses collègues de l’Université polytechnique de Hong Kong et de la HKUST (Guangzhou) — propose un cadrage plus net : la sécurité du RAG porte fondamentalement sur la sécurité du pipeline d’accès au savoir externe, et non sur les paramètres du modèle ou le prompt utilisateur. Ce simple recadrage change l’endroit où chercher les attaques et celui où placer les contrôles.

Comment ça marche

L’étude abstrait tout système RAG en un flux à six étapes : des sources externes fournissent du contenu brut ; un pipeline d’ingestion l’analyse et l’indexe dans un substrat de connaissances interrogeable ; la récupération et le reranking sélectionnent les preuves candidates pour une requête ; l’assemblage de contexte construit le prompt visible par le modèle ; le générateur répond ; et le système délivre la réponse avec journalisation et remédiation. Le long de ce chemin, elle identifie trois frontières de confiance et quatre surfaces d’attaque.

La première surface est la corruption du substrat de connaissances avant récupération — empoisonner le corpus avant toute requête. Comme le contenu implanté est ensuite remonté comme preuve légitime, il persiste à travers les requêtes, les utilisateurs et les sessions. L’étude recense l’empoisonnement de corpus et de documents, les attaques contre la chaîne d’ingestion (contenu malveillant caché dans des formats de documents courants), l’empoisonnement des stores en graphe et multimodaux, et l’empoisonnement orienté code qui pousse des dépendances contrôlées par l’attaquant dans le code généré. Nous avons couvert des cas concrets dans l’empoisonnement de corpus qui survit au reranking et l’empoisonnement silencieux de corpus RAG.

La deuxième surface est la manipulation de l’accès au moment de la récupération : fausser, rediriger ou supprimer la sélection des documents, souvent requête par requête et même en boîte noire, où l’attaquant ne peut que sonder l’interface de récupération. La troisième, et la frontière jugée « la plus importante » par les auteurs, est l’exploitation du contexte récupéré en aval — dès que la preuve récupérée devient contexte visible par le modèle, des données externes non fiables peuvent orienter directement la génération, mécanisme à la base de l’injection de prompt indirecte. La quatrième est l’exfiltration de connaissances et les attaques sur la vie privée, où des adversaires exploitent l’interface à l’envers pour inférer ou extraire des enregistrements sensibles du substrat ; voir l’inférence d’appartenance sur RAG.

Surtout, les auteurs définissent une frontière opérationnelle pour garder le périmètre honnête : un risque est dit introduit par le RAG seulement si le savoir externe est le principal vecteur de la menace, si l’accès au savoir crée un point d’entrée qui n’existe pas en usage par prompt seul, ou si la récupération accroît matériellement la persistance, la transférabilité ou le rayon d’impact de la menace. Les jailbreaks par prompt seul et la pure mémorisation paramétrique sont explicitement hors périmètre.

Pourquoi c’est important

Ce recadrage compte parce qu’il explique pourquoi les défaillances du RAG sont pires que des défaillances de prompt transitoires. Un substrat empoisonné transforme un événement ponctuel et local à une requête en un compromis persistant d’un état partagé — réutilisable entre requêtes, transférable entre utilisateurs, et plus difficile à détecter, attribuer et supprimer. La conclusion sans détour de l’étude est que les défenses actuelles « restent largement réactives et fragmentées ». Une revue parallèle de mars 2026, Towards Secure RAG, aboutit à un verdict similaire sur les menaces, les défenses et les benchmarks, et l’injection de prompt indirecte observée en conditions réelles montre que la surface aval est exploitée dans de vrais systèmes, pas seulement en laboratoire. Pour les équipes qui déploient des assistants RAG, l’implication pratique est que le filtrage d’entrée au niveau du prompt est le mauvais endroit, et le dernier, où se défendre.

Défenses

L’étude organise la remédiation en contrôles répartis le long du même pipeline, une couche par surface. Faites correspondre vos défenses à la frontière qu’elles protègent réellement :

Intégrité et provenance de la base de connaissances (avant récupération). Traitez l’ingestion comme une frontière de confiance. Validez et assainissez les documents à l’analyse, suivez la provenance par fragment pour pouvoir attribuer et révoquer le contenu empoisonné, et verrouillez l’accès en écriture au corpus. La persistance est ici l’avantage de l’attaquant : conservez la capacité de remédier — réindexer et purger — pas seulement de détecter.
Durcissement de l’accès au moment de la récupération. Durcissez les récupérateurs et les rankers contre la manipulation de pertinence : surveillez les décalages de classement anormaux, diversifiez ou combinez la récupération, et évitez de faire confiance à un unique récupérateur dense susceptible d’être backdooré. Une défense par récupération hybride renchérit l’empoisonnement par charge unique.
Isolation du contexte après récupération (aval). Supposez que le texte récupéré peut contenir des instructions. Isolez les preuves des commandes, marquez l’autorité de la source par le canal plutôt que par ce qui est écrit dans la source — le point de l’usurpation de signal de contrôle — et restreignez ce sur quoi le générateur peut agir.
Contrôle d’accès, vie privée et confidentialité (exfiltration). Appliquez une autorisation par document pour que la récupération ne renvoie pas d’enregistrements que l’utilisateur ne devrait pas voir, et limitez ou auditez les schémas de réponse qui sondent le substrat à des fins d’extraction.

La recommandation prospective de l’étude est une protection en couches, consciente des frontières, sur l’ensemble du cycle de vie de l’accès au savoir plutôt qu’un garde-fou unique. Aucun contrôle isolé ne ferme la surface ; l’intérêt de la taxonomie est de garantir qu’aucune des quatre n’est laissée sans défense.

État des lieux

Élément	Détail
Source	Securing RAG: A Taxonomy of Attacks, Defenses, and Future Directions (arXiv:2604.08304)
Publication	v1 9 avril 2026 ; révision 8 juin 2026
Affiliation	Université polytechnique de Hong Kong ; HKUST (Guangzhou)
Cadre	Pipeline à six étapes, trois frontières de confiance, quatre surfaces d’attaque
Affirmation clé	Sécuriser le RAG = sécuriser le pipeline d’accès au savoir externe
État des défenses	« Largement réactives et fragmentées » ; défense en couches recommandée

L’enseignement durable : cessez de demander si votre LLM est « sûr » et commencez à demander quelle frontière de votre pipeline d’accès au savoir un attaquant franchirait — car dans le RAG, le corpus est un état partagé, et un état partagé reste compromis jusqu’à ce que vous le remédiiez.