INDIRECT INJECTION
(23)23 hack(s).
Injection par objets de messagerie : la faille de sérialisation des assistants IA
Imperva a montré (10 juin 2026) que contacts, vCards et points de géolocalisation sont aplatis directement dans le prompt d'un assistant IA, sans frontière de contenu non fiable — un vecteur d'injection structurel, corrigé dans OpenClaw 2026.4.23.
TRAP : la persuasion détourne les agents web de leur propre tâche
Un benchmark d'Oxford mis à jour sur arXiv en juin 2026 montre que les agents web obéissent à des techniques de persuasion à la Cialdini cachées dans la page, abandonnant leur tâche dans 25% des cas en moyenne, jusqu'à 43% pour le modèle le plus faible.
ChatGPhish : le Markdown non fiable transforme les résumés ChatGPT en hameçonnage
Permiso a divulgué ChatGPhish le 29 mai 2026 : une page que vous demandez à ChatGPT de résumer peut afficher liens piégés, fausses alertes, QR codes et pixels traceurs dans l'interface de confiance.
Le local n'est pas plus sûr : l'injection indirecte frappe LLM locaux et cloud
Les travaux de Brave du 8 juin 2026 montrent que l'injection de prompt indirecte fonctionne à l'identique contre un agent cloud (Mozilla Tabstack) et un autocomplétion sur appareil (Cotypist) : l'hébergement local n'est pas une mitigation.
Injection par le canal d'erreur : quand les messages d'erreur des outils font autorité
Un papier de juin 2026 (VATS) montre qu'injecter des instructions dans les messages d'erreur des outils triple le taux de réussite de l'injection indirecte sur les agents de pointe — jusqu'à 100 % de conformité — car les modèles traitent la sortie d'erreur comme faisant autorité.
MIRAGE : les agents GUI mobiles trompés par du contenu utilisateur injecté
Une étude de mai 2026 montre que les agents GUI mobiles fondés sur des VLM ne distinguent pas l'interface de confiance du contenu utilisateur. Du texte réaliste injecté dans des commentaires détourne les cinq agents testés (23–30 % de réussite).
LogJack : les logs cloud, canal d'injection de prompt contre les agents de débogage
Un benchmark d'avril 2026 montre que les agents de débogage LLM qui lisent les logs cloud et exécutent des correctifs obéissent aux instructions cachées dans les lignes de log — exécution verbatim jusqu'à 86,2 %, RCE sur 6 modèles sur 8, et des garde-fous fournisseurs qui ne détectent presque rien.
Agentjacking : de faux bugs Sentry détournent les agents de code via MCP
La recherche de Tenet Security (juin 2026) montre qu'un attaquant peut injecter une fausse erreur Sentry que les agents de code lisent via MCP et exécutent, exfiltrant des secrets avec 85 % de réussite sur 2 388 organisations exposées.
Cross-App Context Poisoning : une app ChatGPT malveillante peut piloter les autres
Une étude arXiv de juin 2026 montre qu'une app ChatGPT malveillante peut écrire dans le contexte de conversation partagé par toutes les apps connectées via des API first-party, transformant le modèle en député confus.
Profondeur d'injection dans les agents ReAct : la position prime sur la formulation
Une étude de juin 2026 sur les agents ReAct à appels d'outils montre que c'est la profondeur d'injection — pas la rhétorique — qui pilote l'injection indirecte : 60 % de réussite au premier appel d'outil, 0 % au quatrième.
DACSI : quand les documents récupérés falsifient les signaux de contrôle du système
Un papier du 8 juin 2026 nomme un mode de défaillance discret du RAG : du texte non fiable qui usurpe les signaux de métadonnées, de provenance et de politique. Pas besoin d'« ignore previous instructions » — la leçon : un label écrit dans un document est une donnée, pas une politique.
Le paradoxe de l'injection : quand une injection de prompt se retourne et efface une marque dans le RAG
Un préprint arXiv du 8 juin 2026 montre qu'une injection de prompt dans un document récupéré peut se retourner sur les modèles Claude alignés, faisant chuter une marque de 54 % à 0 % de recommandation — ouvrant une contre-attaque visant les concurrents.
Decision Hijacking : injecter le LLM qui classe vos résultats de recherche
Une série de travaux 2025-2026 montre que lorsqu'un LLM reclasse des candidats de recherche ou de RAG, quelques lignes injectées dans un seul document suffisent à le propulser en tête — la qualité du classement s'effondre de plus de 60 points NDCG, et les modèles les plus puissants sont les plus vulnérables.
AgentRedBench : l'injection indirecte dans les agents SaaS est un défaut d'autorisation
AgentRedBench (juin 2026) red-team des agents LLM qui lisent des outils SaaS comme Gmail et Jira. Sans garde-fou, le taux de réussite des attaques va de 32 % à 81 % sur huit modèles de pointe, avant qu'un classifieur de réponses d'outils ne le réduise.
Empoisonnement de description : le canal d'agent que vos benchmarks ne testent pas
Une démo AWS Bedrock AgentCore de mai 2026 et un paper arXiv de juin 2026 convergent sur le même angle mort : les descriptions d'outils, lues avant chaque appel, sont un canal d'injection que les contrôles d'infra et les benchmarks à un seul chiffre ignorent.
ChatInject : forger les balises de rôle du chat template pour contourner la hiérarchie d'instructions
Un article d'ICLR 2026 montre qu'envelopper une charge d'injection indirecte dans les tokens du chat template d'un modèle forge un rôle prioritaire et fait passer le taux de succès de 5 % à 32 % sur AgentDojo, et jusqu'à 52 % en multi-tour.
IPI Arena : 272 000 attaques, aucun modèle d'agent épargné
L'Indirect Prompt Injection Arena de Gray Swan, jugée avec l'UK AISI et l'US CAISI, a lancé plus de 272 000 attaques contre 13 modèles de pointe. Tous ont été détournés — et un seul gabarit universel en a cassé neuf.
Silent Egress : l'injection implicite fait fuiter vos données via les aperçus d'URL
Une étude eBay (arXiv, 25 février 2026) montre qu'un agent qui prévisualise automatiquement les URL peut être amené à exfiltrer son contexte d'exécution par appels d'outils — P(egress)≈0,89, et 95 % des fuites laissent la réponse visible parfaitement anodine.
IterInject : quand un LLM optimise lui-même ses injections de prompt indirectes
Un papier du 23 mai 2026 boucle la chaîne payload / diagnostiqueur / optimiseur LLM — l'ASR d'injection indirecte passe de quasi-zéro à 33–90 % sur InjecAgent, et 5 cibles sur 9 sont compromises sur Claude Code.
GrafanaGhost : injection indirecte de prompt et bug de parsing d'URL pour exfiltrer les données des tableaux de bord
La divulgation du 7 avril 2026 par Noma Security montre comment trois défauts modestes — un point d'injection stocké, un contrôle startsWith('/') et un bypass de garde-fou en un mot — se combinent en un canal d'exfiltration silencieux via l'assistant IA de Grafana.
XSS Discourse AI (CVE-2026-27740) : quand la sortie d'un LLM est traitée comme du HTML de confiance
Un message signalé, un modérateur IA, un appel à htmlSafe. Le plugin Discourse AI traitait la sortie LLM comme du markup de confiance, transformant une prompt injection indirecte en XSS côté staff. Publié le 19 mars 2026.
Injection indirecte de prompt : trois études d'avril 2026 convergent
Google, Forcepoint et le CISPA ont mesuré indépendamment l'injection indirecte de prompt sur le web ouvert en avril 2026. Bilan : plus de 15 000 payloads validés, +32 % de croissance, modèles industrialisés.
ShareLeak (CVE-2026-21520) : le premier CVE assigné par Microsoft à une injection de prompt Copilot
Divulgué le 15 avril 2026, le write-up ShareLeak de Capsule Security décrit une injection indirecte de prompt dans Microsoft Copilot Studio. Microsoft a assigné CVE-2026-21520 (CVSS 7.5) — une première qui requalifie la prompt injection en classe de vulnérabilité suivie.