ADVERSARIAL
(10)10 hack(s).
PRAC : détourner le choix d'un agent informatique via son attention
Un papier de Tübingen (avril 2026) montre qu'une seule image produit imperceptiblement perturbée peut concentrer l'attention visuelle d'un agent informatique et orienter 82 % de ses sélections — sans jamais toucher à sa sortie.
Quand le relecteur IA ne sait pas lire la figure : attaques cross-modales sur le peer review
Un papier arXiv de juin 2026 (PaperGuard) montre que les relecteurs IA sont vulnérables non seulement via le texte, mais via les figures — injection de prompt en boîte noire et perturbations d'images en boîte blanche renversent toutes deux le verdict.
Rapid Poison : quand une défense anti-jailbreak devient une surface d'attaque
Un papier arXiv du 15 juin 2026 montre que l'étape de prolifération des défenses Rapid Response peut être empoisonnée à un taux de 1 %, forçant jusqu'à 100 % de faux positifs ou 96 % de faux négatifs dans le classifieur.
Black-Hole Attack : empoisonner une base vectorielle via la géométrie des embeddings
Un papier du 7 avril 2026 montre que quelques vecteurs placés près du centroïde sont remontés dans jusqu'à 99,85 % des top-10 — un empoisonnement de base vectorielle indépendant des requêtes et du modèle.
M3Att : empoisonnement de RAG médical multimodal sans connaître les requêtes
Un papier de mai 2026 empoisonne un RAG médical image-texte sans connaître à l'avance les requêtes des utilisateurs. Des perturbations d'image imperceptibles détournent la récupération ; un texte guidé par l'ambiguïté clinique échappe à l'autocorrection du modèle — et les défenses de pré-filtrage n'y changent presque rien.
CRCP : l'empoisonnement de corpus RAG qui survit au chunking et au reranking
Un article arXiv du 9 juin 2026 montre que beaucoup d'attaques par empoisonnement de corpus échouent discrètement après le reranking — et propose CRCP, une variante "chunk-aware" conçue pour survivre aux pipelines RAG réalistes. La leçon porte sur la façon d'évaluer, pas seulement de défendre.
HPAA : une typographie que l'humain lit mais que les LLM de modération ratent
Un article du 8 juin 2026 introduit les attaques adverses perceptibles par l'humain : un texte nuisible qui reste évident pour un lecteur, mais échappe à la modération par LLM grâce à une manipulation typographique.
SlotGCG : la position du token adverse, pas seulement son contenu, conditionne le jailbreak
Un papier de juin 2026 montre que les jailbreaks de type GCG gagnent ~14 % d'efficacité quand les tokens adverses sont placés à des emplacements corrélés à l'attention — et conservent 42 % de succès face au filtrage d'entrée.
SilentRetrieval : un empoisonnement de corpus RAG fluide qui passe les filtres de perplexité
Un préprint arXiv du 27 mai 2026 propose une attaque en deux temps qui cache des déclencheurs de détournement dans des documents fluides, atteignant 57 % de succès LLM sur Natural Questions et MS MARCO avec un seul document empoisonné par requête.
Usability as a Weapon : quand une demande d'amélioration rend le code généré vulnérable
Un paper arXiv du 11 mai 2026 montre que demander à un LLM de coder « plus vite », « plus simple » ou avec « une fonctionnalité de plus » fait silencieusement disparaître les protections. UPAttack atteint 98,1 % sur GPT-5.2-chat et Gemini-3.