Pourquoi les défenses des agents LLM ne se composent pas : leçons de 247 papers
Une revue systématique de juin 2026 portant sur 247 papers conclut que les défenses des agents sont des briques utiles mais faiblement composables, et que les benchmarks ignorent encore le risque persistant et de long terme.
De quoi s’agit-il ?
Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation (arXiv 2606.10749, publié en juin 2026, soumis à ACM TOSEM) est une revue systématique de 247 papers sur la sécurité des agents LLM parus entre le 1er janvier 2023 et le 27 avril 2026. Plutôt que de cataloguer les attaques une à une, l’article construit un modèle unique de l’agent, orienté systèmes, et pose quatre questions : comment modéliser la sécurité d’un agent, quelles surfaces de menace dominent, quelles défenses existent et à quel coût, et comment les revendications de sécurité sont réellement évaluées.
Sa conclusion principale est à la fois préoccupante et utile : le domaine a produit de nombreuses défenses individuelles crédibles, mais celles-ci restent faiblement composables — les empiler ne produit pas de façon fiable un système sûr — et les benchmarks actuels sous-représentent le risque de long terme, à état persistant et sensible au déploiement. La revue est une synthèse de recherche publique, pas une nouvelle attaque, ce qui en fait une grille de lecture propre pour les défenseurs.
Comment ça marche
Les auteurs modélisent un agent comme une boucle portant sur sept éléments : A = ⟨I, P, D, T, M, O, C⟩ — Input et observations, Planification, Décision/engagement vers une action, exécution d’outil ou d’environnement (Tool), mémoire ou état persistant (Memory), sorties et effets de bord (Outputs), et Coordination avec des humains, des moniteurs ou des agents pairs. Le comportement pertinent pour la sécurité n’émerge pas d’un seul élément mais des flux entre eux : un contenu de faible autorité arrivant dans I peut fausser la planification P, modifier la décision engagée D, déclencher un appel d’outil privilégié T, empoisonner l’état M, ou se propager via C vers d’autres agents.
Ce cadrage ramène la sécurité des agents aux concepts classiques des systèmes — frontières de confiance, médiation, contrôle de capacités, provenance et confinement — et explique pourquoi la lecture « faire dire quelque chose de dangereux » est trop étroite. En codant le corpus selon cette boucle, la revue indique où la recherche se concentre : sécurité de l’usage d’outils (156 papers), défense à l’exécution (88), sécurité de l’injection de prompt (75), sécurité multi-agents (63) et sûreté de la mémoire (32), la planification étant impliquée comme étape du cycle de vie dans 227 papers. La littérature elle-même croît vite — 3 papers en 2023, 42 en 2024, 121 en 2025, et 81 déjà collectés fin avril 2026.
Pourquoi c’est important
Deux constats structurels devraient changer la façon dont les équipes raisonnent sur le risque agentique. D’abord, les défenses ne se composent pas proprement. Un filtre d’injection de prompt, un garde-fou de sortie et une liste blanche d’outils ferment chacun une partie de la boucle, mais la revue trouve peu de preuves que les combiner donne une sécurité prévisible de bout en bout — les failles réapparaissent aux jointures entre traitement de l’entrée, planification et exécution. Considérer « nous avons ajouté trois garde-fous » comme « nous sommes sûrs » est précisément l’hypothèse que l’article met en garde.
Ensuite, l’évaluation est en retard sur le déploiement. La plupart des benchmarks mesurent encore le succès immédiat d’une attaque dans des environnements bornés et mono-tour, alors que les risques qui font mal en production — corruption de mémoire qui survit aux sessions, abus de privilèges, instructions malveillantes se propageant dans des flux multi-agents — sont justement les moins bien mesurés. Les configurations multi-agents restent minoritaires dans le corpus (47 papers sur 247, environ 19 %), même si leur part dans les travaux récents grimpe d’environ 10 % des papers de 2024 vers le bas de la vingtaine en 2025. Autrement dit, la partie du domaine la plus importante pour des déploiements réalistes est celle dont la base de preuves est la moins mature.
Défenses
La section prescriptive de la revue est sa sortie la plus actionnable. Elle soutient que des agents sûrs exigent quatre éléments fonctionnant ensemble, et non isolément :
- Frontières de confiance explicites. Étiquetez et traitez chaque source d’information (prompt système, tour utilisateur, sortie d’outil, document récupéré, message d’un agent pair) selon son autorité, et concevez la boucle pour qu’un contenu de faible autorité dans
Ine puisse pas devenir silencieusement une instruction dansPouD. - Contrôle de privilèges raisonné. Restreignez ce que l’exécution d’outil
Tpeut faire par tâche — moindre privilège, identifiants à portée limitée, confirmation humaine sur les actions conséquentes — afin qu’une décision détournée ne puisse pas atteindre une capacité à fort impact. - Gestion de l’état consciente de la provenance. Tracez l’origine des entrées de la mémoire
Met validez-les à la lecture, car la corruption d’état persistant est la classe de risque émergente que l’article signale comme sous-défendue. - Évaluation réaliste et composable. Testez la boucle entière sur de longs horizons, avec des scénarios à état persistant et multi-agents, et mesurez la sécurité et l’utilité, la latence et le coût ensemble — pas seulement les taux de succès d’attaque mono-tour.
L’enseignement pratique : la défense en profondeur pour les agents ne fonctionne que si l’on raisonne sur les jointures entre couches, et si l’évaluation reproduit les conditions à état persistant et de long terme que les agents rencontreront en production.
Statut
Il s’agit de recherche académique évaluée (une revue systématique soumise à ACM TOSEM), pas d’une vulnérabilité dans un produit nommé ; il n’y a donc ni correctif ni CVE associé. Date clé : préprint arXiv publié en juin 2026 (arXiv 2606.10749), couvrant la littérature jusqu’au 27 avril 2026. Le cadrage des auteurs constitue l’enseignement central — la sécurité des agents est un problème de systèmes, et le défi ouvert est de faire en sorte que défenses et évaluations se composent autour de la boucle agentique complète plutôt qu’autour d’attaques isolées.