Vers des agents LLM sûrs : un SoK de 247 papiers qui repense la sécurité des agents comme un problème système
Une étude arXiv du 9 juin 2026 portant sur 247 papiers replace la sécurité des agents LLM sur la boucle agentique : des défenses qui marchent isolément mais se composent mal, et des benchmarks aveugles au risque long et à état.
De quoi s’agit-il ?
Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation est une étude de systématisation des connaissances (SoK) publiée sur arXiv le 9 juin 2026 (arXiv:2606.10749) par Yuchen Ling, Shengcheng Yu, Zhenyu Chen et Chunrong Fang (université de Nanjing et université technique de Munich), préparée pour ACM TOSEM. Elle synthétise 247 papiers parus entre janvier 2023 et le 27 avril 2026 en une cartographie unique et auditable de l’état réel du domaine.
Son argument central est de ceux que ce site répète : dès qu’un modèle de langage est branché dans une boucle qui planifie, appelle des outils, garde une mémoire et agit sur le monde extérieur, la sécurité cesse d’être une affaire de texte non sûr pour devenir un problème de logiciel et de systèmes : frontières de confiance, autorité déléguée, état persistant. La valeur de l’étude tient moins à une attaque isolée qu’à la carte qu’elle dresse — et aux manques que cette carte rend visibles.
Comment ça marche
Les auteurs ont constitué le corpus via une chaîne hybride auditable — recherche dans six bases de données, une étape bornée d’expansion assistée par LLM (pour élargir le rappel, jamais comme oracle d’inclusion) et du snowballing de citations — puis ont codé à la main chaque papier. Un flux de type PRISMA a ramené 275 enregistrements audités à un corpus normalisé de 247. Chaque papier est étiqueté selon les étapes de la boucle agentique : entrée, planification, décision, exécution d’outil, sortie, mémoire/état, surveillance et coordination multi-agents.
Cette grille de lecture par cycle de vie est l’apport principal. Plutôt que de cataloguer des attaques isolées, l’étude suit comment une information non fiable devient une décision de contrôle, comment cette décision rencontre l’autorité déléguée, et comment la persistance de l’état modifie les propriétés de sécurité du système dans le temps. Quatre questions de recherche structurent la synthèse : comment modéliser la sécurité des agents (RQ1), quelles surfaces de menace dominent (RQ2), quelles défenses existent et à quel coût (RQ3), et comment les affirmations sont évaluées (RQ4).
Le corpus lui-même raconte une trajectoire. Il passe de 3 papiers en 2023 à 42 en 2024 et 121 en 2025, avec 81 de plus collectés au 27 avril 2026 — déjà un tiers du total. Et 68 % du corpus sont des préprints arXiv, contre une poignée à NDSS, CCS ou ICSE. Le domaine croît vite mais reste pré-normalisé : terminologie, modèles de menace et protocoles d’évaluation ne sont pas stabilisés.
Pourquoi c’est important
Trois constats méritent d’être emportés en revue de conception.
D’abord, le centre de gravité empirique reste la prompt injection et le détournement de flot de contrôle médié par les outils — les surfaces les plus étudiées et benchmarkées. Mais l’étude signale la corruption d’état persistant (mémoire empoisonnée, contexte de longue durée) et la propagation multi-agents comme les préoccupations montantes des déploiements réels, encore peu synthétisées.
Ensuite, les défenses se composent mal. Prises une à une, garde-fous, contrôle de privilèges, isolation et suivi de provenance fonctionnent chacun. Empilés, ils ne s’additionnent pas proprement : ils protègent des actifs différents, supposent des modèles de confiance différents, et l’étude ne trouve aucune pile de sécurité convergente et composable que l’on assemblerait sans frais. Un bon résultat sur une défense ne dit presque rien de l’ensemble.
Enfin, les benchmarks mesurent la mauvaise fenêtre. La plupart rapportent un succès d’attaque immédiat dans des environnements bornés et mono-tour, laissant sous-évalués le comportement à long horizon, le risque lié à la mémoire/coordination à état, et les actions sensibles aux privilèges — et mesurent rarement conjointement sûreté, utilité, latence et coût. Une défense qui paraît solide en benchmark peut rester fragile dans un déploiement à état.
Défenses
La prescription de l’étude est architecturale et se ramène à quatre piliers d’ingénierie contre lesquels confronter une conception.
Rendez les frontières de confiance explicites. Traitez sorties d’outils, documents récupérés, entrées de mémoire et messages inter-agents comme des données non fiables, pas comme des instructions. Le modèle ne sait pas séparer les deux de façon fiable ; la frontière doit donc vivre dans le système, dans la lignée de l’instruction-hierarchy et du spotlighting.
Appliquez un contrôle de privilèges raisonné. Cadrez chaque appel d’outil au moindre privilège, refus par défaut, et liez les capacités à la tâche plutôt qu’à la session. Le détournement de flot de contrôle ne dégénère en dommage réel que si l’étape détournée conserve de larges privilèges.
Gérez l’état avec provenance. Mémoire persistante et contexte long sont désormais des surfaces d’attaque. Tracez l’origine de chaque élément stocké, contrôlez les écritures, et considérez qu’une entrée de mémoire contaminée peut orienter des décisions futures, pas seulement le tour courant.
Évaluez pour le déploiement, pas pour la démo. Choisissez (ou construisez) des benchmarks qui exercent les longs horizons, la mémoire à état et la coordination, et qui rapportent utilité et coût aux côtés du taux de succès d’attaque. Comme les défenses ne se composent pas gratuitement, testez la pile que vous livrez, de bout en bout — pas chaque contrôle isolément. La taxonomie OWASP des risques agentiques est un utile contrôle de couverture.
Statut
| Élément | Référence | Date | Notes |
|---|---|---|---|
| Étude (SoK) | arXiv:2606.10749v1 | 2026-06-09 | Cadre cycle de vie / systèmes, ACM TOSEM |
| Taille du corpus | 247 papiers | 2023-01 → 2026-04-27 | 275 audités → 251 retenus → 247 normalisés |
| Croissance | 3 → 42 → 121 papiers | 2023 / 2024 / 2025 | +81 au 2026-04-27 (~33 %) |
| Répartition venues | 68 % préprints arXiv | — | Domaine encore pré-normalisé |
| Surfaces dominantes | Prompt injection, détournement de flot | — | Les plus étudiées / benchmarkées |
| Surfaces émergentes | Corruption d’état, propagation multi-agents | — | Sous-synthétisées |
| Site compagnon | LLMAgentSecuritySurvey | 2026 | Corpus navigable |
Le message n’est pas une nouvelle attaque. C’est une discipline : des agents LLM sûrs exigent des frontières de confiance explicites, un contrôle de privilèges raisonné, un état à provenance, et une évaluation alignée sur la façon dont les agents sont réellement déployés — et l’étude reconnaît honnêtement que le domaine n’a pas encore de pile qui délivre ces quatre choses ensemble.