ADVERSARIAL MEDIUM NEW

M3Att : empoisonnement de RAG médical multimodal sans connaître les requêtes

Un papier de mai 2026 empoisonne un RAG médical image-texte sans connaître à l'avance les requêtes des utilisateurs. Des perturbations d'image imperceptibles détournent la récupération ; un texte guidé par l'ambiguïté clinique échappe à l'autocorrection du modèle — et les défenses de pré-filtrage n'y changent presque rien.

2026-06-17 // 7 min affects: medical-multimodal-rag, lvlm-rag, clinical-decision-support, vision-language-models

De quoi s’agit-il ?

Le 11 mai 2026, des chercheurs de l’université Tsinghua, de la Beijing University of Posts and Telecommunications, de la Northwestern Polytechnical University et de l’ETH Zurich ont publié M3Att (arXiv:2605.10253), un cadre d’empoisonnement de connaissances visant le RAG médical multimodal — ces pipelines qui associent des images médicales (radio, scanner, IRM) à du texte et transmettent les preuves récupérées à un grand modèle vision-langage (LVLM) pour générer un compte-rendu ou répondre à une question clinique.

L’apport important pour les défenseurs est le modèle de menace, pas un nouveau payload. Les travaux antérieurs sur l’empoisonnement de RAG médical supposaient que l’attaquant connaissait déjà les futures requêtes de la victime et pouvait optimiser ses entrées empoisonnées contre elles — une hypothèse rarement vraie en production. M3Att l’abandonne. Il ne suppose qu’une connaissance limitée de la distribution de la base de connaissances, que les auteurs estiment accessible par simple interaction en boîte noire avec le système RAG. L’attaque devient ainsi un banc d’essai de red teaming réaliste plutôt qu’une curiosité de laboratoire.

Comment ça marche

M3Att répartit le problème sur les deux étapes d’un pipeline RAG — récupération et génération. Il est décrit ici au seul niveau conceptuel ; aucun paramètre opérationnel ni payload n’est reproduit.

Étape         RAG normal                     Cible de M3Att
------------  -----------------------------  ----------------------------------------
Récupération  Encode image+texte requête,    Faire récupérer une entrée empoisonnée
              tire les k plus proches        pour des requêtes jamais vues
Génération    Le LVLM lit les preuves        Faire survivre le texte empoisonné aux
              récupérées, écrit le diagnostic connaissances médicales du modèle

Le premier mécanisme, le détournement de récupération guidé par la distribution, exploite une propriété de l’imagerie médicale : les examens d’une même région anatomique se regroupent très étroitement dans l’espace d’embedding. L’attaque modélise cette distribution, choisit des cibles proxy et applique des perturbations imperceptibles à l’image de l’entrée empoisonnée pour qu’elle agisse comme un déclencheur agnostique aux requêtes — apparaissant dans l’ensemble récupéré pour un large éventail de requêtes inconnues, sans modifier l’apparence clinique de l’image.

Le second mécanisme, l’empoisonnement guidé par l’ambiguïté clinique, vise une défense que les praticiens croient souvent protectrice : un LVLM médical bien entraîné corrigerait les faussetés évidentes. M3Att le contourne en injectant la désinformation dans les zones à faible confiance, réellement ambiguës du raisonnement clinique — par exemple une formulation prudente du type « on ne peut exclure une malignité » qui pousse le modèle vers une posture de faux positif. La fausse affirmation étant plausible plutôt que franchement erronée, le modèle ne s’autocorrige pas, et la sortie est « cliniquement plausible mais incorrecte ».

Sur cinq LVLM et cinq jeux de données, le taux de réussite du détournement de récupération approche ~100 % pour un taux d’empoisonnement d’environ 0,08, avec des gains notables même à faible budget d’empoisonnement.

Pourquoi c’est important

Il s’agit d’une attaque sur l’intégrité de la base de connaissances, pas d’une astuce d’injection de prompt : les garde-fous habituels d’entrée/sortie ne la voient donc pas. Le contenu empoisonné est déjà dans le corpus de confiance au moment où la requête arrive.

Le cadre médical rend l’impact concret : un magasin RAG contaminé peut orienter un diagnostic ou une suggestion de traitement vers une conclusion fausse mais crédible, et la conception « guidée par l’ambiguïté » défait précisément l’idée selon laquelle l’entraînement du modèle filtrerait les mauvaises preuves. En termes MITRE ATT&CK, cela se rapproche d’un enjeu de chaîne d’approvisionnement / staging de données — la corruption survient en amont du raisonnement de l’agent, là où la surveillance est la plus faible. Toute organisation qui ingère des connaissances médicales externes ou contributives dans un magasin de récupération doit traiter ce magasin comme une surface d’attaque à part entière.

Défenses

Le résultat le plus utile du papier pour les équipes défensives est de savoir quelles défenses ont échoué : trois filtres de corpus pré-récupération — clustering d’images, clustering de texte et cohérence intermodale image-texte — ont laissé le taux de réussite de la récupération « globalement inchangé », et des contrôles plus poussés au moment de la récupération (filtrage par perplexité, détection d’anomalies, élagage par score sur des retrievers CLIP) ne l’ont pas non plus arrêté de façon fiable. Les heuristiques distributionnelles simples ne suffisent pas. Durcissement pratique :

Gouvernez le corpus comme du code. Restreignez l’accès en écriture à la base de connaissances, exigez provenance et signature pour chaque paire image-texte, et examinez les contributions externes ou communautaires avant ingestion plutôt qu’après.
Corroborez avant de faire confiance. Pour les sorties à fort enjeu, exigez l’accord de plusieurs sources récupérées indépendantes et signalez les diagnostics reposant sur une seule entrée.
Gardez un humain dans la boucle pour les décisions cliniques. Traitez la sortie du RAG comme une aide à la décision, jamais comme une autorité ; assurez la relecture de la chaîne de preuves par un clinicien qualifié, surtout quand le modèle penche vers un constat grave.
Surveillez la dérive de distribution et la surreprésentation. Repérez les entrées récupérées de façon disproportionnée pour des requêtes sans rapport — un déclencheur agnostique aux requêtes se manifeste comme une entrée « toujours pertinente ».
Red-teamez votre propre magasin. Utilisez des cadres comme M3Att (code public) contre une copie de pré-production pour mesurer votre exposition réelle avant qu’un adversaire ne le fasse.

Statut

Élément	Référence	Date	Notes
Papier M3Att	arXiv:2605.10253v1 [cs.CR]	2026-05-11	Tsinghua, BUPT, NWPU, ETH Zurich
Code	github.com/ypr17/M3Att	2026-05	Public, pour red teaming
Périmètre	5 LVLM × 5 jeux de données, 4 tâches médicales	—	Génération de comptes-rendus, QA médicale
Défenses testées	Filtres pré-récupération + au moment de la récupération	—	ASR de récupération « globalement inchangé »

C’est un résultat de recherche en red teaming, pas une vulnérabilité produit divulguée — il n’y a aucun correctif à appliquer. L’enseignement est architectural : dans le RAG médical (et tout RAG à fort enjeu), l’intégrité du corpus de récupération est une propriété de sécurité de premier ordre, et les connaissances propres du modèle ne sont pas un filet de sécurité fiable contre une désinformation plausible.

Note : cet article traite de recherche en sécurité de l’IA sur un sujet sensible (santé) à des fins défensives. Il ne constitue pas un avis médical.