Où entrent vraiment les attaques contre les agents : une cartographie issue de 247 papers
Une étude de juin 2026 portant sur 247 papers mesure où atterrissent les attaques contre les agents LLM. Le prompt utilisateur n'est qu'une surface parmi d'autres — les canaux médiatisés (contenu web, sorties d'outils) dominent.
De quoi s’agit-il ?
En juin 2026, un article de systématisation des connaissances intitulé Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation (arXiv:2606.10749) a été publié. Il synthétise 247 papers à travers un cadre fondé sur le cycle de vie et orienté systèmes, et fait ce que la plupart des listes de menaces ne font pas : il compte par où les attaques entrent réellement dans la boucle de l’agent. Le résultat est une cartographie mesurée de la surface d’attaque des agents à la mi-2026, et non une énième taxonomie de noms d’attaques.
L’enseignement principal pour les défenseurs corrige une intuition. Le réflexe est de considérer le prompt utilisateur comme l’entrée dangereuse. Le corpus indique que le prompt utilisateur n’est qu’une surface parmi d’autres, et que le risque le plus caractéristique arrive par des canaux médiatisés : les pages web que l’agent consulte, les sorties renvoyées par les outils qu’il appelle, et les documents ramenés par la récupération (retrieval).
Il s’agit d’un instantané de la concentration de la recherche, et non d’un classement définitif de tous les risques réels. Mais cette concentration est en soi utile : elle indique où le champ a décidé que se situent les faiblesses structurelles.
Comment ça marche
L’étude organise la sécurité des agents autour de trois propriétés en interaction : le flux d’information, l’autorité déléguée et l’état persistant. Plutôt que de demander seulement quelle entrée l’agent a vue, elle demande ce que l’agent est désormais autorisé à faire parce qu’il l’a vue. Les attaques sont alors localisées selon leur point d’entrée dans la boucle et la transition qu’elles exploitent.
Lorsque le corpus est codé par surface de menace, la distribution est concrète (un paper peut toucher plusieurs surfaces) :
Surface de menace Papers Signification
────────────────── ────── ─────────────────────────────────
Prompts utilisateur 82 Instructions directes de l'utilisateur
Contenu web 55 Pages récupérées lors de la navigation
Sorties d'outils 54 Résultats renvoyés par un outil/API
Contenu récupéré 37 Preuves issues du RAG / des index
Fichiers / Code >=25 Artefacts locaux lus, exécutés, modifiés
Boucle de planification >=25 Raisonnement intermédiaire / trajectoire
Mémoire / Brouillons >=25 État conservé par l'agent pour plus tard
Canaux inter-agents >=25 Messages échangés entre agents
« Prompts utilisateur » est la surface la plus fréquente avec 82 papers — mais Contenu web (55), Sorties d’outils (54) et Contenu récupéré (37) décrivent ensemble une surface d’attaque bien plus large, et médiatisée. Ces canaux transportent du contenu pertinent pour la tâche mais sans autorité : l’agent l’ingère comme une preuve, puis traite les instructions qui y sont enfouies comme exécutables. C’est là le défaut central — la perte de séparation entre données et contrôle, et entre une observation à faible autorité et une instruction à forte autorité.
Le décompte des familles d’attaques confirme la même forme. Dans le codage du modèle de menace, l’injection de prompt apparaît dans 142 papers et l’injection indirecte dans 86. Ventilé par scénario de déploiement, la navigation web montre l’injection de prompt 71 fois et l’injection indirecte 44 fois ; les agents de génie logiciel, 32 et 16. L’injection de prompt n’est pas une attaque parmi d’autres dans cette littérature — c’est le mécanisme dominant par lequel le contenu non fiable devient un contrôle dangereux. Cela rejoint ce que les praticiens ont rapporté indépendamment en juin 2026 : l’injection de prompt reste à l’origine de la plupart des défaillances agentiques observées en production.
Le second apport de l’étude est de présenter les événements les plus dangereux comme des transitions, et non comme des composants. Le préjudice survient généralement quand un contenu non fiable est réinterprété comme une contrainte de planification, quand un plan provisoire devient une action engagée, ou quand une trace stockée est plus tard réutilisée comme contexte de confiance. C’est aussi pourquoi l’empoisonnement de mémoire et la contagion multi-agents sont désignés comme la frontière émergente — ce sont des formes retardées et propagatives du même problème de flux de contrôle.
Pourquoi c’est important
Trois enseignements concrets.
Le champ est jeune et dominé par les preprints : calibrez votre confiance. Le corpus passe de 3 papers en 2023 à 42 en 2024 puis 121 en 2025, avec 81 de plus au 27 avril 2026 (32,79 % du total). arXiv représente 169 papers (68,42 %). Terminologie, modèles de menace et protocoles d’évaluation sont encore mouvants. Traitez chaque affirmation comme une observation datée et versionnée, et non comme un résultat établi — c’est précisément la discipline que l’étude elle-même recommande.
Les preuves portent surtout sur l’agent unique, mais le risque multi-agents progresse. Les systèmes à agent unique constituent 200 papers (80,97 %) ; les systèmes multi-agents, 47 (19,03 %). La part multi-agents grimpe de 9,52 % en 2024 à 23,97 % en 2025. Si votre feuille de route prévoit des agents qui délèguent à d’autres agents ou leur transmettent des messages, vous entrez dans la partie de la surface de menace la moins couverte par la base de preuves actuelle — canaux inter-agents, défaillances de coordination, propagation d’instructions malveillantes d’un agent à l’autre.
Les défenses ne se composent pas, et les benchmarks manquent les cas difficiles. L’étude conclut que les défenses actuelles sont des briques utiles mais faiblement composables, et que les benchmarks existants sous-représentent les risques à long horizon, à état persistant et sensibles au déploiement. En pratique, un bon score sur un benchmark d’injection en un seul tour ne dit presque rien de la tenue d’un agent à état, outillé et multi-étapes.
Défenses
Les recommandations de l’étude se traduisent directement en une liste de vérification architecturale. Aucune n’est un exploit inédit à redouter ; ce sont des frontières à construire.
-
Traitez les canaux médiatisés comme non fiables par défaut. Le contenu web, les sorties d’outils et les documents récupérés transportent des données, pas des instructions. Retirez ou mettez en quarantaine tout contenu de type instruction issu de ces surfaces avant qu’il n’atteigne le contexte de planification, et ne laissez jamais un texte récupéré ou navigué rentrer silencieusement dans la boucle comme une directive.
-
Imposez une hiérarchie d’instructions explicite et une légitimité de source. Le défaut structurel est que l’agent traite des observations à faible autorité comme des commandes à forte autorité. Étiquetez chaque segment selon sa provenance (utilisateur, outil, web, mémoire) et faites dépendre la politique du modèle de cette étiquette, afin que la source — et pas seulement le contenu — gouverne ce qui est exécutable.
-
Placez le contrôle de privilège à la frontière d’action. Comme l’agent agit sous une autorité déléguée que l’attaquant ne possède pas, le contrôle durable se situe à l’exécution des outils : vérifications de capacité par action, moindre privilège par outil, et confirmation humaine pour les actions à fort impact. Cela contraint la transition dangereuse plan vers action plutôt que de tenter de purifier parfaitement chaque entrée.
-
Rendez l’état persistant conscient de sa provenance. Mémoire et brouillons sont un canal de flux de contrôle retardé : un contenu empoisonné écrit aujourd’hui peut être récupéré demain comme contexte « de confiance ». Enregistrez l’origine de chaque mémoire, expirez-la ou revalidez-la, et ne promouvez jamais automatiquement une trace stockée en instruction de confiance.
-
Surveillez le trio létal. La combinaison classique à haut risque — accès à des données privées, exposition à du contenu non fiable et voie de communication externe — reste la configuration à éviter ou à fortement encadrer, comme l’a formulé Simon Willison. La cartographie des 247 papers est, en somme, le récit détaillé de la façon dont ce trio est exploité à travers les surfaces.
-
Évaluez à la forme de déploiement que vous exécutez réellement. Les scores d’injection en un seul tour ne prédisent pas le comportement multi-étapes, à état ou multi-agents. Testez explicitement les trajectoires longues, la réutilisation de la mémoire et la propagation inter-agents, car c’est là que l’étude situe la plus grande faiblesse, tant des défenses que des benchmarks.
Statut
| Élément | Référence | Date | Notes |
|---|---|---|---|
| Toward Secure LLM Agents (SoK) | arXiv 2606.10749 | 2026-06 | 247 papers ; cadre cycle de vie + systèmes |
| Croissance du corpus | idem | 2023–2026 | 3 -> 42 -> 121 papers ; 81 au 27/04/2026 |
| Décompte par surface | idem | 2026-06 | Prompts util. 82, Web 55, Sorties d’outils 54, Récupéré 37 |
| Décompte par famille | idem | 2026-06 | Injection de prompt 142, indirecte 86 |
| Part multi-agents | idem | 2024-2026 | 9,52 % -> 23,97 % -> 17,28 % (partiel) |
| Corroboration en production | Help Net Security / OWASP | 2026-06-11 | L’injection de prompt reste la cause majeure |
La leçon pratique n’est pas que les agents sont inutilisables. C’est que l’entrée dangereuse est rarement le prompt de l’utilisateur. Dès qu’un modèle navigue, appelle des outils, récupère, mémorise et dialogue avec d’autres agents, chacun de ces canaux est un point d’entrée — et la frontière qui compte n’est pas « ce texte est-il malveillant » mais « l’agent est-il autorisé à agir dessus ». Concevez pour les transitions, pas seulement pour les entrées.