GOVERNANCE MEDIUM NEW

OWASP State of Agentic AI Security 2026 : l'injection de prompt relie la plupart des incidents d'agents

Le rapport OWASP State of Agentic AI Security and Governance v2.01 (1er juin 2026) passe des menaces hypothétiques aux CVE et brèches documentées. L'injection de prompt couvre désormais six des dix catégories de risque agentique.

2026-06-12 // 6 min affects: coding-agents, mcp, litellm, cursor, codex-cli

De quoi s’agit-il ?

Le 1er juin 2026, l’OWASP GenAI Security Project a publié la version 2.01 de son rapport State of Agentic AI Security and Governance. Le changement par rapport à l’édition 2025 est tout l’enjeu : là où le rapport précédent recensait des menaces plausibles, l’édition 2026 recense des CVE réelles, des advisories d’éditeurs et des rapports de brèches rattachés à presque chaque catégorie de risque agentique (Help Net Security, 11 juin 2026). Les menaces ont cessé d’être théoriques.

Il s’agit d’un document défensif de cadrage — une synthèse de ce qui a réellement mal tourné en production sur des déploiements d’agents au cours de l’année écoulée — et non d’un guide d’attaque. Il s’articule autour du Top 10 OWASP pour les applications agentiques (2026), les dix catégories ASI, de l’Agent Goal Hijack (ASI01) aux Rogue Agents (ASI10).

Comment ça fonctionne

Le constat central du rapport : une technique sert de joint universel à l’ensemble des incidents, l’injection de prompt, qu’OWASP rattache à six des dix catégories agentiques.

La cause racine est architecturale, pas un simple bug corrigeable. Un modèle de langage traite le system prompt, la requête de l’utilisateur et tout texte récupéré depuis des sources externes comme un flux unique et indifférencié de tokens. Il n’existe aucune frontière fiable marquant certains tokens comme des commandes et d’autres comme des données. Un texte hostile glissé dans un document, une invitation de calendrier ou une page web peut donc porter la même autorité qu’une instruction légitime de l’opérateur.

Le rapport s’appuie sur deux heuristiques que les praticiens utilisent déjà :

Triade létale (Simon Willison)          Règle de Deux pour agents (Meta)
-----------------------------------     ---------------------------------------
Un agent qui combine les trois :        Traiter les trois propriétés de la
  1. accès à des données privées        triade comme un budget. Un agent qui
  2. exposition à du contenu non fiable agit SANS validation humaine peut en
  3. capacité à communiquer vers        satisfaire au plus DEUX. Combiner les
     l'extérieur                        trois exige un humain dans la boucle.
peut être transformé en outil
d'exfiltration par un seul prompt
injecté.

Là où les données se concentrent : les agents de code. Sur 53 projets agentiques suivis par OWASP, 28 sont des agents de code, et les cinq outils à la croissance la plus rapide (Claude Code, Gemini CLI, Codex, Cline, Aider) sont tous dans cette catégorie. La vélocité de release complique le tri : sept projets suivis publient des mises à jour quotidiennement ou plus vite, un rythme pour lequel l’analyse de composition logicielle traditionnelle n’a jamais été conçue.

Pourquoi c’est important

Les incidents documentés montrent que la chaîne d’approvisionnement est devenue la cible facile — les attaquants ont appris que le chemin le moins coûteux est d’empoisonner ce que l’agent considère déjà comme de confiance :

Couche protocole. Des chercheurs ont repéré le premier serveur Model Context Protocol malveillant dans la nature ; le paquet postmark-mcp a publié quinze versions saines pour bâtir une légitimité avant d’ajouter une seule ligne de code d’exfiltration (contexte injection MCP).
Couche agent. La CVE-2026-22708 (Cursor) a permis d’empoisonner l’environnement d’exécution pour que des commandes en liste blanche comme git branch délivrent des charges arbitraires — la liste blanche a facilité l’attaque en auto-approuvant exactement ce dont l’attaquant avait besoin.
Couche paquet. Un bot autonome a récupéré le token PyPI de LiteLLM via une configuration CI compromise et a poussé des versions piégées ; une fenêtre de mars 2026 a vu ~47 000 téléchargements en trois heures.

OWASP soutient aussi que, pour les systèmes agissant en autonomie sur des données de production, la sûreté (safety) et la sécurité (security) de l’IA ne peuvent plus relever d’équipes séparées. L’incident Replit 2025 cité — un assistant qui a supprimé une base de production malgré la consigne de ne rien modifier — n’avait aucun attaquant, et pourtant le modèle de permissions derrière cette défaillance est exactement celui qu’un attaquant exploite via une injection. Contenir la défaillance de sûreté et combler la faille de sécurité s’avèrent être le même travail.

Défenses

Le rapport et ses cadres sous-jacents pointent vers des mitigations concrètes et en couches :

Appliquer la Règle de Deux. Pour tout agent non supervisé, ne jamais le laisser détenir simultanément l’accès aux données privées, l’exposition à du contenu non fiable et un canal de sortie externe. Casser une jambe de la triade ou insérer une validation humaine.
Traiter tout contenu récupéré comme des données non fiables, jamais comme des instructions. Utiliser la minimisation de contexte, le « spotlighting » / délimitation du texte externe et des contraintes de sortie pour que les tokens récupérés ne puissent pas devenir des commandes.
Durcir la chaîne d’approvisionnement. Épingler et vérifier les serveurs MCP et les paquets, restreindre et faire tourner les tokens de publication CI, et présumer que les listes blanches peuvent être détournées — valider la commande résolue, pas seulement son nom.
Limiter le rayon d’impact. Périmètres d’outils en moindre privilège, exécution en sandbox et filtrage d’egress limitent ce qu’un agent détourné peut faire ou envoyer.
Unifier la responsabilité safety et security pour les agents en production, et mettre en place une détection du shadow AI — selon les données IBM citées, seules 37 % des organisations ont une politique pour le détecter.
Surveiller l’horloge. Le rapport recense 42 instruments réglementaires dans 10 juridictions ; les délais de notification se resserrent (DORA 4 heures, NIS2 alerte précoce à 24 heures, RAISE Act de New York 72 heures, SB 53 de Californie quinze jours).

Statut

Élément	Détail	Date
OWASP State of Agentic AI Security & Governance	v2.01, public	1er juin 2026
Analyse Help Net Security	Synthèse indépendante	11 juin 2026
Top 10 OWASP pour applications agentiques	ASI01–ASI10, édition 2026	2026
Couverture injection de prompt	Rattachée à 6 des 10 catégories ASI	2026

Le rapport est téléchargeable gratuitement auprès de l’OWASP GenAI Security Project. Aucune des mitigations ci-dessus ne requiert d’outillage propriétaire : ce sont des choix d’architecture et d’organisation accessibles à toute équipe exploitant des agents aujourd’hui.