RESEARCH MEDIUM NEW

Pourquoi les défenses des agents LLM ne se composent pas : leçons de 247 papers

Une revue systématique de juin 2026 portant sur 247 papers conclut que les défenses des agents sont des briques utiles mais faiblement composables, et que les benchmarks ignorent encore le risque persistant et de long terme.

2026-06-18 // 7 min affects: tool-using llm agents, coding agents, browser agents, memory-augmented assistants, multi-agent systems

De quoi s’agit-il ?

Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation (arXiv 2606.10749, publié en juin 2026, soumis à ACM TOSEM) est une revue systématique de 247 papers sur la sécurité des agents LLM parus entre le 1er janvier 2023 et le 27 avril 2026. Plutôt que de cataloguer les attaques une à une, l’article construit un modèle unique de l’agent, orienté systèmes, et pose quatre questions : comment modéliser la sécurité d’un agent, quelles surfaces de menace dominent, quelles défenses existent et à quel coût, et comment les revendications de sécurité sont réellement évaluées.

Sa conclusion principale est à la fois préoccupante et utile : le domaine a produit de nombreuses défenses individuelles crédibles, mais celles-ci restent faiblement composables — les empiler ne produit pas de façon fiable un système sûr — et les benchmarks actuels sous-représentent le risque de long terme, à état persistant et sensible au déploiement. La revue est une synthèse de recherche publique, pas une nouvelle attaque, ce qui en fait une grille de lecture propre pour les défenseurs.

Comment ça marche

Les auteurs modélisent un agent comme une boucle portant sur sept éléments : A = ⟨I, P, D, T, M, O, C⟩ — Input et observations, Planification, Décision/engagement vers une action, exécution d’outil ou d’environnement (Tool), mémoire ou état persistant (Memory), sorties et effets de bord (Outputs), et Coordination avec des humains, des moniteurs ou des agents pairs. Le comportement pertinent pour la sécurité n’émerge pas d’un seul élément mais des flux entre eux : un contenu de faible autorité arrivant dans I peut fausser la planification P, modifier la décision engagée D, déclencher un appel d’outil privilégié T, empoisonner l’état M, ou se propager via C vers d’autres agents.

Ce cadrage ramène la sécurité des agents aux concepts classiques des systèmes — frontières de confiance, médiation, contrôle de capacités, provenance et confinement — et explique pourquoi la lecture « faire dire quelque chose de dangereux » est trop étroite. En codant le corpus selon cette boucle, la revue indique où la recherche se concentre : sécurité de l’usage d’outils (156 papers), défense à l’exécution (88), sécurité de l’injection de prompt (75), sécurité multi-agents (63) et sûreté de la mémoire (32), la planification étant impliquée comme étape du cycle de vie dans 227 papers. La littérature elle-même croît vite — 3 papers en 2023, 42 en 2024, 121 en 2025, et 81 déjà collectés fin avril 2026.

Pourquoi c’est important

Deux constats structurels devraient changer la façon dont les équipes raisonnent sur le risque agentique. D’abord, les défenses ne se composent pas proprement. Un filtre d’injection de prompt, un garde-fou de sortie et une liste blanche d’outils ferment chacun une partie de la boucle, mais la revue trouve peu de preuves que les combiner donne une sécurité prévisible de bout en bout — les failles réapparaissent aux jointures entre traitement de l’entrée, planification et exécution. Considérer « nous avons ajouté trois garde-fous » comme « nous sommes sûrs » est précisément l’hypothèse que l’article met en garde.

Ensuite, l’évaluation est en retard sur le déploiement. La plupart des benchmarks mesurent encore le succès immédiat d’une attaque dans des environnements bornés et mono-tour, alors que les risques qui font mal en production — corruption de mémoire qui survit aux sessions, abus de privilèges, instructions malveillantes se propageant dans des flux multi-agents — sont justement les moins bien mesurés. Les configurations multi-agents restent minoritaires dans le corpus (47 papers sur 247, environ 19 %), même si leur part dans les travaux récents grimpe d’environ 10 % des papers de 2024 vers le bas de la vingtaine en 2025. Autrement dit, la partie du domaine la plus importante pour des déploiements réalistes est celle dont la base de preuves est la moins mature.

Défenses

La section prescriptive de la revue est sa sortie la plus actionnable. Elle soutient que des agents sûrs exigent quatre éléments fonctionnant ensemble, et non isolément :

Frontières de confiance explicites. Étiquetez et traitez chaque source d’information (prompt système, tour utilisateur, sortie d’outil, document récupéré, message d’un agent pair) selon son autorité, et concevez la boucle pour qu’un contenu de faible autorité dans I ne puisse pas devenir silencieusement une instruction dans P ou D.
Contrôle de privilèges raisonné. Restreignez ce que l’exécution d’outil T peut faire par tâche — moindre privilège, identifiants à portée limitée, confirmation humaine sur les actions conséquentes — afin qu’une décision détournée ne puisse pas atteindre une capacité à fort impact.
Gestion de l’état consciente de la provenance. Tracez l’origine des entrées de la mémoire M et validez-les à la lecture, car la corruption d’état persistant est la classe de risque émergente que l’article signale comme sous-défendue.
Évaluation réaliste et composable. Testez la boucle entière sur de longs horizons, avec des scénarios à état persistant et multi-agents, et mesurez la sécurité et l’utilité, la latence et le coût ensemble — pas seulement les taux de succès d’attaque mono-tour.

L’enseignement pratique : la défense en profondeur pour les agents ne fonctionne que si l’on raisonne sur les jointures entre couches, et si l’évaluation reproduit les conditions à état persistant et de long terme que les agents rencontreront en production.

Statut

Il s’agit de recherche académique évaluée (une revue systématique soumise à ACM TOSEM), pas d’une vulnérabilité dans un produit nommé ; il n’y a donc ni correctif ni CVE associé. Date clé : préprint arXiv publié en juin 2026 (arXiv 2606.10749), couvrant la littérature jusqu’au 27 avril 2026. Le cadrage des auteurs constitue l’enseignement central — la sécurité des agents est un problème de systèmes, et le défi ouvert est de faire en sorte que défenses et évaluations se composent autour de la boucle agentique complète plutôt qu’autour d’attaques isolées.