DEFENSE
(75)75 hack(s).
MemMark : attribuer une mémoire d'agent empoisonnée à partir du seul instantané
Un article arXiv du 26 mai 2026 inscrit la propriété dans les décisions latentes d'écriture mémoire d'un agent : la provenance survit même quand les journaux ont été effacés et qu'il ne reste que l'instantané final.
Cognitive Firewall : une défense répartie pour les agents navigateurs
Un papier eBay de mars 2026 empile une sentinelle locale, un planificateur cloud et un garde d'exécution déterministe pour faire chuter l'injection indirecte dans les agents navigateurs de 100 % à moins de 1 %.
AI Control Roadmap de DeepMind : défense en profondeur pour agents non alignés
L'AI Control Roadmap de Google DeepMind (juin 2026) traite les agents IA internes comme des menaces internes potentielles, en superposant une supervision par modèles de confiance à l'alignement.
LLM salting : faire pivoter la direction de refus pour casser la réutilisation des jailbreaks
Le « LLM salting » de SophosAI (CAMLIS 2025) applique une légère rotation à la direction de refus d'un modèle : un jailbreak précalculé contre le modèle de base ne se transfère plus à votre déploiement — la parade des rainbow tables, appliquée aux LLM.
Diversion défensive : pourquoi bloquer les jailbreaks automatisés peut se retourner contre vous
Un papier de juin 2026 modélise le juge automatique de l'attaquant et montre que des refus prévisibles alimentent sa boucle de recherche — d'où une diversion contrôlée plutôt qu'un simple blocage.
Le désapprentissage de backdoor généralise : retirer un déclencheur peut en neutraliser d'autres
Un article de juin 2026 montre que désapprendre un seul déclencheur de backdoor peut affaiblir d'autres backdoors jamais ciblées — lorsque leurs décalages d'activation internes sont proches, mesurés par une nouvelle métrique : la CASD.
Pourquoi les refus des agents échouent : le Cybersecurity Refusal Framework
Un nouveau benchmark montre que les refus de sécurité des agents se décident sur la chaîne d'URL, pas sur la cible réelle. Deux astuces triviales — fausses « règles d'engagement » et proxy localhost — transforment le refus en obéissance sur des sites de production.
Sécurité MCP : la vraie question n'est pas quelles attaques existent, mais où placer les défenses
Un article arXiv d'avril 2026 cartographie les attaques MCP sur six couches architecturales et constate des défenses inégales, trop centrées sur l'outil — laissant l'orchestration hôte, le transport et la chaîne d'approvisionnement structurellement sous-protégés.
Localiser l'injection de prompt : de la détection à l'excision forensique
Détecter une injection de prompt vous dit seulement que quelque chose ne va pas. Deux travaux de 2026, PromptLocate et WebSentinel, identifient précisément le segment de contexte empoisonné pour l'exciser et récupérer la tâche.
SEAgent : un contrôle d'accès obligatoire contre l'escalade de privilèges des agents
Un article de janvier 2026 reformule les attaques d'agents comme une escalade de privilèges — des actions dépassant le moindre privilège requis — et propose SEAgent, une couche MAC/ABAC déterministe appliquée sur un graphe de flux d'information.
Cordon : un confinement transactionnel pour les agents LLM outillés
Un papier arXiv du 16 juin 2026 propose des 'transactions sémantiques' : un runtime qui met en attente les effets irréversibles d'un agent et valide tout le flux de la tâche avant de committer.
AuthGraph : alignement à double graphe contre l'injection sur agents
Un papier UCLA du 26 mai 2026 compare un graphe d'autorisation propre au graphe de provenance réel de l'agent, faisant chuter le taux de succès d'attaque de 40 % à 1 % sur AgentDojo.
SkillVetBench : un LLM-juge qui voit ce que les scanners de skills ratent
Un papier arXiv du 14 juin 2026 montre que les scanners de skills au niveau code ratent 89 à 100 % des menaces au niveau instruction, là où un LLM-juge détecte les 78 skills malveillantes de test sans aucun faux positif.
SafeMCP : filtrer l'acquisition d'outils pour contenir la quête de pouvoir des agents MCP
Un papier arXiv du 1er juin 2026 (ACL 2026) propose SafeMCP, un plugin côté serveur qui utilise un raisonnement anticipatif par modèle du monde pour filtrer l'acquisition d'outils dangereux avant qu'un agent MCP n'étende ses pouvoirs.
La triade létale est devenue la norme — défendez les agents à l'exécution
La triade létale signalait jadis les agents à risque. Mi-2026, elle décrit tout agent utile : l'évitement architectural ne suffit plus. La défense se déplace vers cinq signaux comportementaux à l'exécution.
DoubtProbe : détecter les jailbreaks qui réorganisent l'intention
Un papier de juin 2026 propose une défense à l'inférence qui traite la détection de jailbreak comme un contrôle de cohérence : on reconstruit la requête sous contraintes structurelles, puis on signale les prompts dont le sens ne survit pas à l'aller-retour.
Détecter les attaques dans le trafic d'appels d'outils : le contenu prime
Une étude arXiv de mai 2026 sur la supervision des appels d'outils MCP montre que les embeddings de contenu portent la détection (AUROC > 0,89), que la structure de graphe apporte peu, et que les splits aléatoires gonflent les scores jusqu'à 26 points.
RUBAS : un signal de récompense fin pour la sûreté des agents par RL à grilles
Un papier de juin 2026 remplace la récompense binaire refus/exécution par quatre grilles notées — usage d'outil, arguments, réponse, utilité — pour entraîner des agents qui restent sûrs sans perdre en utilité.
SkillGuard : un cadre de permissions pour ce qu'une skill d'agent peut faire à l'exécution
Un papier de juin 2026 comble l'écart entre ce qu'une skill injecte dans le contexte d'un agent et ce qu'elle lui fait faire, via des manifestes, un contrôle d'accès deny-by-default et de la surveillance à l'exécution.
Backdoors leurres : supprimer les backdoors LLM inconnues via des mécanismes internes partagés
Un article de juin 2026 supprime des backdoors invisibles en en plantant une visible : différentes backdoors partagent des motifs d'activation internes, donc effacer un « leurre » contrôlé affaiblit aussi l'inconnue.
Les défenses par provenance de la mémoire-graphe des agents sont aveugles par construction
Un article arXiv daté du 10 juin 2026 montre que les contrôles de provenance sur la mémoire-graphe des LLM se contournent sans falsifier aucune source : une écriture de structure non fiable change quels faits authentifiés sont sélectionnés, et le contrôle de flux d'information ne le voit jamais.
La vie privée d'un agent est un problème de trajectoire : OCELOT budgétise la fuite par inférence à l'exécution
Un article arXiv daté du 10 juin 2026 redéfinit la vie privée des agents LLM comme un contrôle du risque a posteriori : non plus filtrer chaque sortie, mais budgétiser de combien la croyance d'un adversaire sur un secret peut progresser sur toute une trajectoire.
Skills d'agent vérifiés : gouvernance des capacités pour la chaîne SKILL.md
Les skills d'agent vérifiés de NVIDIA (19 mai 2026) ajoutent scan de risques, signature cryptographique et fiches de skill lisibles par machine à la chaîne SKILL.md — une réponse défensive aux skills empoisonnés.
Parallax : placer la sécurité des agents dans l'architecture, pas dans le prompt
Un position paper publié le 14 avril 2026 soutient que les garde-fous au niveau du prompt s'effondrent dès que le raisonnement d'un agent est compromis, et propose de séparer structurellement ce qui pense de ce qui agit.
Architecturer des agents sûrs : une défense « plan et politique » contre l'injection de prompt
Un position paper de NVIDIA (31 mars 2026) soutient que l'injection de prompt indirecte ne se corrige pas au seul niveau du modèle — et propose une architecture « plan et politique » qui contraint ce qu'un agent peut observer et décider.
Pourquoi les détecteurs d'injection de prompt échouent : le problème d'évasion en 2026
Des classifieurs par mots-clés aux sondes de dérive d'activation, les détecteurs d'injection de prompt partagent une faiblesse : l'adversaire adaptatif. Deux études rapportent jusqu'à ~100 % d'évasion. La détection est une couche, jamais la frontière.
Confidential Computing et IA agentique : ce que les enclaves ne protègent pas
Une étude de mai 2026 projette le confidential computing sur la pile agentique : les enclaves matérielles protègent la mémoire et le cache KV d'un opérateur cloud malveillant, mais n'arrêtent pas la prompt injection.
Pourquoi les jailbreaks se transfèrent entre modèles — et comment le « salage » riposte
Une étude sur 20 modèles open-weight montre que le transfert des jailbreaks vient des représentations internes partagées, pas d'un défaut de l'alignement. Une défense appelée LLM salting fait pivoter la direction de refus pour casser la réutilisation.
SafeHarbor : un garde-fou à mémoire hiérarchique qui s'attaque au sur-refus des agents
Accepté à ICML 2026, SafeHarbor est un garde-fou sans réentraînement qui injecte des règles de sécurité contextuelles depuis un arbre de risques auto-évolutif — 63,6 % d'utilité bénigne sur GPT-4o tout en refusant plus de 93 % des attaques.
L'injection de prompt n'est pas résolue — contenez-la à la vitesse machine
À l'Infosecurity Europe 2026, Ariel Fogel (OWASP) a qualifié l'injection de prompt de problème architectural non résolu et plaidé pour un passage de la prévention au confinement à l'exécution, aussi rapide que l'agent.
SecureClaw : une défense à double frontière pour les agents LLM outillés
Un article de juin 2026 propose de garder deux frontières distinctes à la fois — autoriser les actions externes au point d'effet et confiner le texte en clair à la frontière de lecture — avec 0 % de réussite d'attaque sur un benchmark d'agents.
PI-Hunter : auditer les agents pour exposer et localiser les injections de prompt cachées
Un article de juin 2026 signé par des chercheurs de Google transforme le red-teaming d'injection de prompt en audit — PI-Hunter fait évoluer des cas de test ancrés dans la source pour révéler où une injection latente entre et se propage dans un agent, pas seulement si l'attaque réussit.
Injection par flux d'outils : pourquoi les défenses d'agents statiques cassent, et ce que corrige le verify-before-commit
Un papier de janvier 2026, VIGIL, recentre l'injection indirecte sur le flux d'outils — descriptions falsifiées et faux messages d'erreur — et montre que mieux un agent est aligné, plus il leur obéit.
Dans GitHub Agentic Workflows : une architecture de sécurité pour les agents CI/CD
GitHub Agentic Workflows est passé en préversion publique le 11 juin 2026 avec une conception « sécurité d'abord » : agents sans secret dans une prison chroot, pare-feu de workflow, écritures mises en attente puis vérifiées, et un job de détection de menaces. La réponse défensive à l'injection de prompt en CI/CD.
TRUSTDESC : dériver les descriptions d'outils depuis le code pour désamorcer le tool poisoning
Un papier d'avril 2026 s'attaque au tool poisoning à la racine : générer la description d'un outil à partir de son implémentation plutôt que de faire confiance au texte fourni par l'auteur, neutralisant le poisoning implicite que les détecteurs ratent.
Le Recuse Signal : un robots.txt pour les agents qui détiennent de vrais identifiants
Un article de juin 2026 propose un signal de « refus » in-band — émis via une bannière SSH ou un NOTICE PostgreSQL — qui demande poliment à un agent autonome de se retirer. En pilote, il a induit 100 % de recusal, mais un cadrage d'autorisation a fait repartir le modèle le plus capable.
Le trilemme de la défense : pourquoi les wrappers anti-injection ne peuvent être complets
Une preuve vérifiée en Lean 4 (avril 2026) montre qu'aucun wrapper d'entrée continu et préservant l'utilité ne peut bloquer toute injection de prompt. Continuité, utilité et complétude ne peuvent coexister.
AgentDyn : pourquoi les défenses anti-injection brillantes sur benchmark échouent en conditions réelles
AgentDyn, un benchmark ICML de février 2026, teste dix défenses anti-injection de premier plan sur des tâches d'agent dynamiques et ouvertes. Presque toutes sont soit non sûres, soit surdéfensives au point d'être inutilisables.
La supervision a une capacité : quand plus d'approbations rend l'agent moins sûr
Un papier arXiv du 8 juin 2026 modélise le relecteur humain derrière la porte d'approbation d'un agent comme une ressource finie qui fatigue — et montre qu'escalader plus d'actions peut réduire la sécurité réelle et ouvrir une attaque par saturation.
CASA : un contrôle d'accès par tâche qui confronte chaque appel d'outil à l'intention réelle de l'utilisateur
Un papier arXiv du 4 mai 2026 propose Continuous Agent Semantic Authorization — une couche zero-trust qui extrait la tâche de l'utilisateur d'une conversation multi-tours et refuse les appels d'outils qui n'y correspondent pas.
ADR : détection et réponse pour agents MCP, éprouvé à l'échelle d'Uber
Un papier de mai 2026 signé Uber décrit un système type EDR pour agents MCP : télémétrie causale complète, détection à deux étages et red teaming hors ligne, déployé sur plus de 7 200 hôtes pendant dix mois.
ePCA : remplacer les garde-fous sémantiques d'agents par de la vérification formelle
Un article de mai 2026 propose ePCA, un garde-fou qui compile chaque action d'agent en logique du premier ordre et exécute une vérification SMT avant exécution, bloquant les étapes dangereuses sous forme de blocages logiques.
AgentTrust : filtrer les appels d'outils d'un agent avant leur exécution
Un préprint du 6 mai 2026 présente AgentTrust, une couche d'exécution qui inspecte chaque appel d'outil avant qu'il ne s'exécute et renvoie autoriser / avertir / bloquer / revoir — y compris sur les charges shell obfusquées.
Détecter l'extraction de modèle en observant la fenêtre de trafic, pas les requêtes isolées
Un papier de juin 2026 montre qu'un simple test de distribution (MMD sur les embeddings de requêtes, calibré uniquement sur le trafic légitime) détecte les campagnes d'extraction noyées dans un trafic d'API mixte — 0,3 % de faux positifs, 100 % sur le trafic purement attaquant.
La sécurité des agents est un problème de système : traiter le modèle comme non fiable
Un position paper de mai 2026 (Google, UCSD, UW–Madison) soutient que la sécurité des agents doit sortir du modèle pour passer dans le système : traiter le LLM comme un composant non fiable et imposer les invariants autour de lui.
Need to Know : réécriture de requêtes par intégrité contextuelle
Un papier arXiv du 2 juin 2026 reformule la réécriture de requêtes respectueuse de la vie privée comme un problème d'intégrité contextuelle : ne transmettre une donnée au LLM cloud que si la tâche en a besoin, pas parce qu'un type de PII a été reconnu.
Membrane : une mémoire de sécurité contrastive qui adapte les garde-fous sans réentraînement
Un papier arXiv du 4 juin 2026 propose Membrane, un garde-fou auto-évolutif qui associe chaque attaque bloquée à une requête bénigne quasi identique, ramenant le sur-refus à 7-14 % tout en dominant le F1 sur six jailbreaks.
Lockdown Mode d'OpenAI : couper la voie d'exfiltration du prompt injection
Le 6 juin 2026, OpenAI a étendu Lockdown Mode aux comptes ChatGPT personnels et Business en libre-service : un réglage déterministe qui désactive les canaux sortants utilisés pour exfiltrer des données via prompt injection.
THRD : une défense temporelle sans réentraînement contre les jailbreaks multi-tours
Un papier de juin 2026 soutient qu'un jailbreak multi-tours doit être jugé sur l'ensemble de la conversation, pas tour par tour. THRD agrège le risque dans le temps et ramène le taux de succès des attaques à 0,2–4 %, sans réentraînement.
Deux pièges méthodologiques qui gonflent les scores des détecteurs d'injection de prompt
Un préprint arXiv du 1ᵉʳ juin 2026 montre que la plupart des benchmarks de détecteurs d'injection de prompt et de jailbreak reposent sur un réglage de seuil par jeu de données et des points de fonctionnement non divulgués — deux habitudes qui gonflent discrètement la précision annoncée.
AgentVisor : un patron type hyperviseur OS qui audite chaque appel d'outil
Un article arXiv du 27 avril 2026 emprunte l'idée de l'hyperviseur OS pour défendre les agents LLM outillés : un « visor » de confiance audite chaque appel d'outil et est architecturalement aveugle au contenu non fiable.
Taxonomie v2.0 des modes de défaillance agentiques de Microsoft : le contournement zéro-clic du humain dans la boucle
La taxonomie v2.0 de l'AI Red Team de Microsoft (4 juin 2026) ajoute sept modes de défaillance agentiques et désigne le contournement du humain dans la boucle comme le plus exploité — y compris des chaînes zéro-clic partant d'une seule entrée externe.
L'agent qui écrit ses propres logs : pourquoi les journaux d'audit auto-déclarés ne sont pas fiables
Si un agent compromis produit lui-même son journal d'activité, il peut omettre, altérer ou fabriquer ce qu'il a fait. Trois travaux de juin 2026 — Notarized Agents (arXiv), un draft IETF sur l'audit trail des agents, et SCITT — convergent vers la même solution : déplacer la frontière de confiance hors de l'agent.
Quand les défenses par embedding échouent dans les systèmes multi-agents LLM
Un papier arXiv du 1er mai 2026 montre que les détecteurs qui écartent un agent malveillant via l'embedding de ses messages s'effondrent face à un texte rendu quasi-bénin — et propose les signaux de confiance par token comme remplacement plus robuste.
PISmith : le red teaming par RL adaptatif casse encore les défenses anti-injection
Un papier de mars 2026 entraîne un modèle attaquant par apprentissage par renforcement pour éprouver les défenses anti-injection en boîte noire — et 8 défenses de pointe tombent, y compris sur AgentDojo et InjecAgent.
La recherche hybride BM25 + vecteurs fait tomber l'empoisonnement RAG de 38 % à 0 %
Un préprint arXiv du 10 mars 2026 montre qu'ajouter du BM25 épars à la recherche dense bloque toute une classe d'empoisonnement de corpus RAG optimisé par gradient — sans toucher au LLM.
AgentShield : démasquer les agents compromis avec des honeytokens et des outils-leurres
Un papier de mai 2026 applique l'ingénierie de la déception aux agents LLM outillés : faux outils, fausses identifiants et listes blanches de paramètres sur lesquels un agent détourné trébuche. Détection annoncée de 90,7 à 100 % des attaques réussies, sans fausse alerte.
OWASP Agent Memory Guard : une couche d'exécution contre l'empoisonnement mémoire des agents
Relayé par Help Net Security le 1er juin 2026, Agent Memory Guard est la première implémentation de référence OWASP pour ASI06 : une couche prête à l'emploi qui filtre chaque lecture et écriture mémoire d'un agent selon une politique YAML.
Détecter l'exfiltration d'identifiants par les agents LLM avant le token de sortie
Publié le 2 juin 2026, un papier arXiv détecte les fuites d'identifiants d'un agent avant tout token de sortie — en combinant sondes d'activation, honeytokens calibrés et comptabilité de fuite multi-tour.
Agent Threat Rules : un « Sigma pour agents IA » — et ce que ses chiffres de rappel avouent
ATR propose des règles de détection YAML ouvertes pour les attaques d'agents, déjà en production chez Microsoft, Cisco et Gen Digital. Ses propres benchmarks montrent pourquoi la détection par regex est une couche, pas un périmètre.
SnapGuard : détecter l'injection dans ce que l'agent voit, pas dans ce qu'il parse
Un papier d'avril 2026 propose un détecteur léger pour les agents web fondés sur captures d'écran, là où les garde-fous textuels sont aveugles. Il lit les pixels rendus — stabilité des gradients et texte à polarité inversée — en 1,81 s par page.
DataShield : quand un fine-tuning anodin érode la sûreté d'un modèle
Un papier arXiv du 29 mai 2026 montre qu'affiner un LLM aligné sur des données inoffensives dégrade quand même sa sûreté, et propose DataShield pour repérer les échantillons en cause avant l'entraînement.
Cessez d'évaluer les défenses anti-jailbreak au seul taux de réussite
Un papier IEEE S&P de mai 2026 soutient que le taux de réussite d'attaque — la métrique par défaut du domaine — masque le comportement réel des défenses anti-jailbreak. Son Security Cube les évalue sur plusieurs axes à la fois.
Séparateurs dynamiques : durcir le Polymorphic Prompt Assembling contre l'injection
Un papier arXiv du 28 mai 2026 corrige une faille de « rayon d'impact » du Polymorphic Prompt Assembling en générant un séparateur SHA-256 unique par requête, faisant chuter le taux de succès d'un payload de 0,88 à 0,38.
Le triangle des compromis : défendre un tuteur LLM contre l'injection de prompt
Un benchmark de mai 2026 sur les défenses anti-injection pour tuteurs pédagogiques LLM chiffre une vérité gênante : aucun garde-fou ne gagne à la fois sur la robustesse, l'usabilité et la latence.
Les jailbreaks laissent une trace : les détecter dans les activations internes des LLM
Un article de février 2026 et son prolongement de mars 2026 montrent qu'un prompt de jailbreak grave une signature distinctive dans les activations cachées du modèle — permettant une détection à l'inférence, sans fine-tuning ni modèle juge auxiliaire.
Attribution causale : une défense émergente contre l'injection indirecte
Un ensemble de papers début 2026 — CausalArmor et AttriGuard — défend les agents à outils en demandant quelles actions sont causalement provoquées par du contenu non fiable plutôt que par l'utilisateur. Tour d'horizon de la défense par attribution causale.
Un million de services IA exposés : ce que le scan Intruder a réellement trouvé
Le 5 mai 2026, Intruder publiait les résultats d'un scan internet ayant cartographié un million de services IA exposés sur deux millions d'hôtes. Le défaut récurrent n'est pas exotique : ce sont les configurations par défaut permissives.
MCP a besoin d'une poignée de main de confiance : l'admission attestée des serveurs d'outils
Un papier arXiv du 22 mai 2026 propose mcp-attested — une extension rétrocompatible de MCP qui conditionne tout dispatch d'outil à une attestation signée, à une allowlist deny-by-default et à un journal d'audit infalsifiable.
WARD : un modèle de garde co-évolué qui tient face aux injections de prompt adaptatives sur agents web
Un papier de la NUS daté du 14 mai 2026 propose WARD — un modèle de garde entraîné contre un attaquant adversarial à mémoire — et rapporte un rappel quasi parfait hors-distribution sur l'injection de prompt en agent web.
Project Glasswing : 10 000+ bugs critiques trouvés par Claude Mythos en un mois
Le bilan publié par Anthropic le 26 mai 2026 indique que près de 50 partenaires de Project Glasswing ont utilisé Claude Mythos Preview pour identifier plus de 10 000 vulnérabilités de sévérité élevée ou critique, dont 271 bugs latents corrigés dans Firefox 150.
Agents Rule of Two : la réponse pragmatique de Meta au prompt injection
Publiée le 31 octobre 2025 par Meta et reprise dans le guide Databricks de mai 2026, l'Agents Rule of Two limite une session d'agent à deux des trois propriétés à risque — le cadre le plus actionnable tant que le prompt injection reste sans solution.
ARGUS : une défense par graphe de provenance contre l'injection de prompt contextuelle
Publié le 5 mai 2026, l'article ARGUS introduit un audit par graphe d'influence pour les agents LLM — le taux de réussite des attaques chute de 28,8 % à 3,8 % sur un nouveau benchmark.
Hiérarchie des instructions : entraîner les LLM à prioriser les ordres privilégiés
Le papier OpenAI de 2024 propose une défense structurelle contre l'injection de prompt : apprendre au modèle que système > utilisateur > sortie d'outil. L'idée est désormais centrale dans l'entraînement de GPT-4o-mini et de la série o.
Le filtrage de sortie bat l'auto-défense du modèle : 20 000 attaques adaptatives, un seul survivant
Posté le 26 avril et révisé le 12 mai 2026, un papier Swept AI / Michigan a opposé neuf défenses contre l'injection de prompt à un attaquant adaptatif. Toutes les défenses côté modèle ont fini par tomber. Seul le filtrage de sortie applicatif a tenu — zéro fuite sur 15 000 attaques.