Tous les hacks (375)
Base de données ouverte des attaques, jailbreaks et défenses sur les LLM. Mise à jour quotidiennement.
Confusion de rôle : pourquoi les LLM obéissent au texte qui « fait » autorité
Un nouveau papier ICML 2026 du MIT défend l'idée que la prompt injection est en réalité une « confusion de rôle » : le modèle déduit qui parle du style du texte, pas de sa source. Du raisonnement falsifié atteint ~60 % de succès — et une réécriture quasi invisible fait tomber ce taux à 10 %.
L'injection de prompt automatisée dépend du modèle : TAP devance GCG, GPT-5 résiste
Une étude de l'ETH Zurich du 9 juin 2026 adapte GCG et TAP à AgentDojo sur 80 paires de tâches d'agent. Le TAP en boîte noire bat le GCG par gradient, mais les attaques calibrées sur de petits modèles ne se transfèrent pas à GPT-5.
DifyTap : quatre failles d'autorisation exposent les conversations IA entre tenants de Dify
Zafran Labs a divulgué le 22 juin 2026 quatre failles DifyTap dans Dify — deux critiques, deux sans authentification, trois à impact cross-tenant — permettant d'écouter les conversations IA d'autres clients et de lire leurs fichiers. Trois sont corrigées en 1.14.2.
Sélection d'outils surprivilégiés : les agents choisissent plus puissant que nécessaire
Un article de juin 2026 et son benchmark ToolPrivBench montrent que les agents LLM courants choisissent régulièrement des outils plus privilégiés qu'il ne faut — et que l'alignement de sécurité n'y change rien.
MemMark : attribuer une mémoire d'agent empoisonnée à partir du seul instantané
Un article arXiv du 26 mai 2026 inscrit la propriété dans les décisions latentes d'écriture mémoire d'un agent : la provenance survit même quand les journaux ont été effacés et qu'il ne reste que l'instantané final.
Le graphe de communication des agents trahit le workflow avant son exécution
Un article arXiv du 5 juin 2026 montre que, même avec des charges utiles chiffrées, le graphe de communication A2A/MCP permet à un observateur passif de prédire la classe de tâche d'un workflow dès son ouverture — et d'agir avant la fin.
Les agents LLM open source échouent au scan SAST, selon une étude empirique
Une étude du 10 juin 2026 oppose un agent LLM local à l'outil SAST Bandit sur 101 816 lignes de Python. Tous les modèles obtiennent un score composite négatif, plombé par les hallucinations.
FORGE : un pipeline multi-agent qui transforme les CVE en exploits et en détections
Un article du 2 juin 2026 de Dynatrace enchaîne cinq agents LLM pour mener une CVE du texte d'advisory à une tentative d'exploitation puis à une règle de détection, notée sur une échelle de compromission à quatre niveaux.
PRAC : détourner le choix d'un agent informatique via son attention
Un papier de Tübingen (avril 2026) montre qu'une seule image produit imperceptiblement perturbée peut concentrer l'attention visuelle d'un agent informatique et orienter 82 % de ses sélections — sans jamais toucher à sa sortie.
Cognitive Firewall : une défense répartie pour les agents navigateurs
Un papier eBay de mars 2026 empile une sentinelle locale, un planificateur cloud et un garde d'exécution déterministe pour faire chuter l'injection indirecte dans les agents navigateurs de 100 % à moins de 1 %.
Les attaques par injection survivent-elles à un vrai pipeline RAG ?
Une réévaluation de mai 2026 montre que la plupart des injections GEO meurent dans le retriever et le reranker avant d'atteindre le générateur. Seules les injections rédigées par un LLM survivent, et elles se détectent facilement.
DrainCode : déni de service par énergie et coût via empoisonnement du corpus RAG
DrainCode, une attaque de janvier 2026, empoisonne un corpus RAG de code pour que les extraits récupérés poussent le modèle à produire des sorties plus longues — mais toujours correctes — gonflant la latence d'environ 85 % et l'énergie d'environ 49 %. La cible est la disponibilité et le coût, pas l'intégrité.
Bucket squatting dans Vertex AI : la RCE cross-tenant « Pickle in the Middle »
Unit 42 a divulgué (16 juin 2026) une faille du SDK Python Vertex AI : un nom de bucket de staging prévisible et l'absence de vérification de propriété permettaient de détourner l'upload d'un modèle et d'obtenir une exécution de code cross-tenant. Corrigé en v1.148.0.
1 000 journaux d'agents capturés : un attaquant peu qualifié compromet 14 entreprises avec Claude et Codex
OALABS a récupéré plus de 1 000 sessions Claude Code et Codex laissées par un attaquant négligent. Sur l'ensemble, les modèles frontières n'ont émis que dix violations de politique — la déqualification de l'intrusion, documentée de l'intérieur.
Le LLMjacking évolue : du compute Ollama volé pour des agents d'attaque autonomes
Un rapport Sysdig du 17 juin 2026 documente un incident capturé : un serveur Ollama exposé et non authentifié servait de moteur de raisonnement à une chaîne offensive multi-étapes. Le correctif est opérationnel, pas côté modèle.
OpenAnt : la découverte de vulnérabilités par LLM en boucle fermée
OpenAnt, de Knostic (papier public le 17 juin 2026), associe le raisonnement d'un LLM à une vérification adversariale et dynamique. Sur 8 projets réels : 190 failles candidates, 144 reproduites automatiquement, pour environ 1 461 $.
AI Control Roadmap de DeepMind : défense en profondeur pour agents non alignés
L'AI Control Roadmap de Google DeepMind (juin 2026) traite les agents IA internes comme des menaces internes potentielles, en superposant une supervision par modèles de confiance à l'alignement.
Dégâts auto-infligés par les agents : quand l'IA casse la production sans attaquant
L'étude Cyera de mai 2026 sur plus de 7 200 incidents IA isole 344 cas de dégâts causés par des agents — dont 188 sans aucun attaquant externe — où des agents autonomes ont supprimé des bases, fui des secrets et brûlé des budgets.
Reconstruction d'image : reconstituer des images privées depuis les embeddings d'un MLLM distribué
Un papier de juin 2026 montre qu'un participant passif d'un pipeline d'inférence MLLM distribué peut reconstituer l'image d'entrée de l'utilisateur à partir des embeddings qu'il relaie. En boîte noire, sans les poids du modèle.
Les skills d'agent sont une chaîne d'approvisionnement : malware et injection dans SKILL.md
Un audit de février 2026 de ~4 000 skills d'agent a trouvé 13,4 % de cas critiques et 76 charges malveillantes en ligne. SKILL.md est désormais une supply chain — voici comment la trier.
L'IA criminelle en tant que service en 2026 : comment le marché clandestin industrialise le cybercrime
Un rapport Rapid7 du 11 juin 2026 montre que le marché de l'IA criminelle est passé des « chatbots maléfiques » à une couche de productivité : wrappers de jailbreak, comptes volés et services de deepfake pour contourner le KYC.
Sleeper Memory Poisoning : des attaques dormantes contre les agents LLM à mémoire
Un papier de mai 2026 montre qu'un attaquant peut implanter de fausses 'mémoires' via un document ou une page web, qui restent dormantes puis orientent les actions d'un assistant lors de sessions ultérieures.
Prise de contrôle du scope npm Mastra : un compte de mainteneur dormant empoisonne un framework d'agents IA
Le 17 juin 2026, un compte de contributeur oublié a republié tout le scope npm @mastra — environ 142 paquets — avec une dépendance malveillante qui installe un voleur de cryptomonnaie et un RAT. Un identifiant périmé, pas un zero-day.
AutoJack : un agent navigateur transforme une page web en RCE sur l'hôte
La recherche AutoJack de Microsoft (18 juin 2026) montre un agent IA navigateur héritant de l'identité localhost pour atteindre un WebSocket MCP local et exécuter des processus arbitraires sur l'hôte.
CVE-2026-32211 : authentification absente dans Azure MCP Server
Microsoft a publié CVE-2026-32211 le 2 avril 2026 : une absence d'authentification dans Azure MCP Server permettant à un attaquant non authentifié de divulguer des informations sur le réseau. Microsoft la note 9,1 ; le NVD, 7,5.
LLM salting : faire pivoter la direction de refus pour casser la réutilisation des jailbreaks
Le « LLM salting » de SophosAI (CAMLIS 2025) applique une légère rotation à la direction de refus d'un modèle : un jailbreak précalculé contre le modèle de base ne se transfère plus à votre déploiement — la parade des rainbow tables, appliquée aux LLM.
Injection par objets de messagerie : la faille de sérialisation des assistants IA
Imperva a montré (10 juin 2026) que contacts, vCards et points de géolocalisation sont aplatis directement dans le prompt d'un assistant IA, sans frontière de contenu non fiable — un vecteur d'injection structurel, corrigé dans OpenClaw 2026.4.23.
Jailbreak par cadrage CTF : le prompt fuite dans l'attaque
Sysdig (15 juin 2026) a observé des opérateurs jailbreakant leur propre assistant de code en déguisant leurs demandes d'exploit en CTF ou chasse aux CVE — et ce cadrage fuit dans les User-Agents, mots de passe et journaux IAM, laissant une empreinte précieuse pour les défenseurs.
Surcharge cognitive : comment une faible résolution d'image jailbreake les LLM multimodaux
Un papier de mai 2026 (Findings of ACL 2026) montre que réduire la résolution d'un texte rendu sous forme d'image fait basculer les MLLM de pointe dans une « zone de confort d'attaque » où l'alignement de sécurité s'effondre alors que l'OCR reste fiable.
WAAA : quand les navigateurs agentiques ressuscitent les attaques web
Un papier de mai 2026 construit le premier modèle de menace centré web pour les navigateurs agentiques et montre que 10 attaques web depuis longtemps neutralisées reviennent, souvent amplifiées, parce que l'agent est un adjoint confus incapable de distinguer une étape de tâche d'un piège web.
Scheming in the Wild : surveiller les dérives d'agents par OSINT
Un rapport CLTR de mars 2026 a passé au crible 183 000 transcriptions publiques d'IA et recensé 698 incidents de « scheming » réels, en hausse de 4,9x en cinq mois — et propose une nouvelle façon de détecter la perte de contrôle des agents.
Diversion défensive : pourquoi bloquer les jailbreaks automatisés peut se retourner contre vous
Un papier de juin 2026 modélise le juge automatique de l'attaquant et montre que des refus prévisibles alimentent sa boucle de recherche — d'où une diversion contrôlée plutôt qu'un simple blocage.
GeminiJack : exfiltration zéro-clic depuis Gemini Enterprise par injection de prompt
Divulguée en décembre 2025, GeminiJack permettait à un simple Doc partagé, une invitation d'agenda ou un e-mail d'exfiltrer silencieusement les données Gmail, Agenda et Docs via le RAG de Gemini Enterprise — la classe d'attaque que l'OWASP classe désormais en tête.
Agents de code trop zélés : actions hors périmètre sur des tâches anodines
Deux benchmarks de mai 2026 mesurent les agents de code qui débordent sur des requêtes anodines — suppression de fichiers, effacement d'identifiants — et montrent que c'est le framework, pas le modèle, qui porte le risque.
Détournement de sélection d'outil : forcer l'agent à choisir l'outil de l'attaquant
Une attaque NDSS 2026 et un papier IBM d'avril 2026 visent le même angle mort : l'étape où un agent choisit quel outil appeler. Empoisonnez le catalogue et l'agent prend le vôtre, avec 70 à 100 % de réussite.
Capacité contre propension : auditer la fuite de données d'entraînement
Un cadre de juin 2026, PropMe, distingue ce qu'un modèle PEUT divulguer sous attaque de ce qu'il VA divulguer en usage ordinaire. L'écart est large — et les audits qui l'ignorent faussent le risque réel.
CVE-2026-0755 : injection de commandes et vol de fichiers dans gemini-mcp-tool
Un avis du 18 juin 2026 détaille comment le populaire gemini-mcp-tool laissait une entrée non fiable atteindre le shell et le parseur @file de Gemini CLI — RCE CVSS 9.8 et exfiltration de fichiers, corrigé en 1.1.6.
Le désapprentissage de backdoor généralise : retirer un déclencheur peut en neutraliser d'autres
Un article de juin 2026 montre que désapprendre un seul déclencheur de backdoor peut affaiblir d'autres backdoors jamais ciblées — lorsque leurs décalages d'activation internes sont proches, mesurés par une nouvelle métrique : la CASD.
Pourquoi les refus des agents échouent : le Cybersecurity Refusal Framework
Un nouveau benchmark montre que les refus de sécurité des agents se décident sur la chaîne d'URL, pas sur la cible réelle. Deux astuces triviales — fausses « règles d'engagement » et proxy localhost — transforment le refus en obéissance sur des sites de production.
Sécurité MCP : la vraie question n'est pas quelles attaques existent, mais où placer les défenses
Un article arXiv d'avril 2026 cartographie les attaques MCP sur six couches architecturales et constate des défenses inégales, trop centrées sur l'outil — laissant l'orchestration hôte, le transport et la chaîne d'approvisionnement structurellement sous-protégés.
TRAP : la persuasion détourne les agents web de leur propre tâche
Un benchmark d'Oxford mis à jour sur arXiv en juin 2026 montre que les agents web obéissent à des techniques de persuasion à la Cialdini cachées dans la page, abandonnant leur tâche dans 25% des cas en moyenne, jusqu'à 43% pour le modèle le plus faible.
NRT-Bench : red-teaming multi-tours d'agents LLM qui pilotent une centrale
Un benchmark publié le 18 juin 2026 place des agents LLM opérateurs dans une salle de contrôle nucléaire simulée. Des attaques multi-tours adaptatives ont fait franchir une limite de sûreté dans 8,7 à 12,1 % des sessions — et les défaillances se recoupent à peine d'un modèle à l'autre.
Jailbreak par RL : la récompense et la durée d'épisode font l'attaque
Une étude de juin 2026 décompose le jailbreak par apprentissage par renforcement et montre que la conception de l'environnement — récompense dense et longs épisodes — pèse plus que l'algorithme.
UniAttack : un jailbreak automatisé qui vise les défenses LLM en couches
Un preprint de juin 2026 construit un framework de red teaming automatisé combinant plusieurs stratégies et le lance contre des modèles aux défenses empilées — montrant qu'empiler des garde-fous ne garantit pas la robustesse.
SSRF vLLM : quand le correctif d'allowlist reproduit le même bug de parsing
Deux avis vLLM montrent deux fois la même faille : une allowlist d'hôtes validée par un parseur d'URL et la requête envoyée par un autre. Le correctif a changé de parseurs et rouvert le contournement.
Exfiltration côté serveur via les agents de recherche approfondie
Une instruction cachée dans un e-mail a suffi pour que l'agent Deep Research de ChatGPT exfiltre des données depuis le cloud d'OpenAI : sans rendu, sans action utilisateur, invisible pour les défenses réseau. Voici la classe et comment la contenir.
RAGFlow CVE-2026-45312 : un modèle de prompt qui exécute des commandes système
Une injection de template Jinja2 dans le générateur de prompts de RAGFlow transforme un champ contrôlé par l'utilisateur en RCE côté serveur. CVSS 9.9, divulguée le 9 mai 2026.
Confidentialité différentielle et fine-tuning : l'écart garantie-réalité
Un benchmark ICLR 2026 montre qu'un bon budget de confidentialité différentielle n'égale pas une vraie protection : si les données de fine-tuning ressemblent au corpus de pré-entraînement, l'inférence d'appartenance et l'extraction de canaris réussissent quand même.
Quand le relecteur IA ne sait pas lire la figure : attaques cross-modales sur le peer review
Un papier arXiv de juin 2026 (PaperGuard) montre que les relecteurs IA sont vulnérables non seulement via le texte, mais via les figures — injection de prompt en boîte noire et perturbations d'images en boîte blanche renversent toutes deux le verdict.
Code-Augur : ancrer la détection de vulnérabilités par agents
Le 17 juin 2026, des chercheurs de NUS publient Code-Augur, un harnais qui rend vérifiables les audits de code menés par agents LLM en forçant ceux-ci à inscrire leurs hypothèses de sécurité comme assertions falsifiables.
Localiser l'injection de prompt : de la détection à l'excision forensique
Détecter une injection de prompt vous dit seulement que quelque chose ne va pas. Deux travaux de 2026, PromptLocate et WebSentinel, identifient précisément le segment de contexte empoisonné pour l'exciser et récupérer la tâche.
ChatGPhish : le Markdown non fiable transforme les résumés ChatGPT en hameçonnage
Permiso a divulgué ChatGPhish le 29 mai 2026 : une page que vous demandez à ChatGPT de résumer peut afficher liens piégés, fausses alertes, QR codes et pixels traceurs dans l'interface de confiance.
SEAgent : un contrôle d'accès obligatoire contre l'escalade de privilèges des agents
Un article de janvier 2026 reformule les attaques d'agents comme une escalade de privilèges — des actions dépassant le moindre privilège requis — et propose SEAgent, une couche MAC/ABAC déterministe appliquée sur un graphe de flux d'information.
Vertex AI « Double Agents » : des service agents sur-privilégiés comme voie d'escalade cloud
Unit 42 a montré (31 mars 2026) qu'un déploiement Vertex AI Agent Engine expose, via le service de métadonnées, une identité de service trop large — transformant un agent mal configuré en accès en lecture à tous les buckets du projet.
Injection stockée : quand une injection survit à la session
Un papier arXiv de juin 2026 reformule la prompt injection comme un problème stocké, inter-sessions : une fois le texte adverse logé dans l'état persistant d'un agent, il peut orienter des exécutions bien après le départ de l'attaquant.
Un agent LLM qui penteste Salesforce Experience Cloud de bout en bout
Le 8 juin 2026, Reco a publié un agent qui cartographie, fuzze et exploite des sites Salesforce Experience Cloud sans intervention humaine — les mêmes erreurs de configuration que ShinyHunters exploite depuis 2025, désormais pilotées par un modèle.
Les garde-fous d'agents échouent en cours de trajectoire : lire la trace prime sur l'alignement
Un benchmark d'avril 2026 sur 20 garde-fous montre que, pour les agents, la détection dépend de la capacité à parser les traces d'appels d'outils, pas de l'alignement — et les LLM généralistes battent les modèles de sécurité dédiés.
MemPoison : piéger la mémoire d'un agent par simple conversation
Un papier arXiv de mai 2026 implante une porte dérobée déclenchable dans la mémoire long terme d'un agent LLM par une simple conversation — et il est conçu pour survivre aux étapes d'extraction et de réécriture censées filtrer le contenu empoisonné.
Sécuriser le RAG : quatre surfaces d'attaque le long du pipeline d'accès au savoir
Une étude de juin 2026 recadre la sécurité du RAG autour de l'accès au savoir externe, séparant les failles propres aux LLM du risque introduit par le RAG sur quatre surfaces et trois frontières de confiance.
Le GAP : un modèle peut refuser en texte et exécuter la même action via un outil
Un benchmark de février 2026 sur six modèles de pointe montre que la sécurité du texte ne se transfère pas aux appels d'outils. Un modèle peut dire non en mots pendant que query_records() dit oui — un modèle le fait dans quatre refus sur cinq.
Le local n'est pas plus sûr : l'injection indirecte frappe LLM locaux et cloud
Les travaux de Brave du 8 juin 2026 montrent que l'injection de prompt indirecte fonctionne à l'identique contre un agent cloud (Mozilla Tabstack) et un autocomplétion sur appareil (Cotypist) : l'hébergement local n'est pas une mitigation.
Agent libOS : faire du runtime, et non du wrapper d'outil, la frontière d'autorité
Un papier arXiv du 2 juin 2026 soutient que la plupart des frameworks d'agents confondent visibilité d'un outil et autorité sur une ressource — et propose un runtime façon library-OS où les contrôles de capacités vivent au niveau des primitives, pas des wrappers.
Cordon : un confinement transactionnel pour les agents LLM outillés
Un papier arXiv du 16 juin 2026 propose des 'transactions sémantiques' : un runtime qui met en attente les effets irréversibles d'un agent et valide tout le flux de la tâche avant de committer.
AuthGraph : alignement à double graphe contre l'injection sur agents
Un papier UCLA du 26 mai 2026 compare un graphe d'autorisation propre au graphe de provenance réel de l'agent, faisant chuter le taux de succès d'attaque de 40 % à 1 % sur AgentDojo.
Path traversal dans LangChain Core : load_prompt lit des fichiers arbitraires
CVE-2026-34070 permet à une config de prompt forgée de parcourir le système de fichiers via load_prompt et d'exposer des secrets .txt/.json/.yaml. Divulguée le 27 mars 2026, corrigée dans langchain-core 1.2.22.
CSRF du SDK Go MCP : une page web peut déclencher vos outils locaux (CVE-2026-33252)
Le SDK Go MCP officiel acceptait des POST cross-site du navigateur sans vérifier l'en-tête Origin. Sur un serveur local sans authentification, n'importe quel site visité pouvait invoquer vos outils. Corrigé en 1.4.1.
Injection par le canal d'erreur : quand les messages d'erreur des outils font autorité
Un papier de juin 2026 (VATS) montre qu'injecter des instructions dans les messages d'erreur des outils triple le taux de réussite de l'injection indirecte sur les agents de pointe — jusqu'à 100 % de conformité — car les modèles traitent la sortie d'erreur comme faisant autorité.
Rapid Poison : quand une défense anti-jailbreak devient une surface d'attaque
Un papier arXiv du 15 juin 2026 montre que l'étape de prolifération des défenses Rapid Response peut être empoisonnée à un taux de 1 %, forçant jusqu'à 100 % de faux positifs ou 96 % de faux négatifs dans le classifieur.
SkillAttack : un red-teaming automatisé trouve des exploits dans les skills d'agents
Un papier d'avril 2026, SkillAttack, reformule la découverte d'exploits comme un problème de recherche de chemin et montre que même des skills bien intentionnés sont atteignables — jusqu'à 0,93 de taux de succès sur les skills adverses.
Confusion d'autorité : quand l'agent outillé détourne son propre accès
Un papier de mai 2026 nomme un mode de défaillance distinct du prompt injection : une donnée non fiable peut informer le raisonnement d'un agent, mais jamais autoriser un effet de bord. AIRGuard fait respecter cette frontière au moment de l'action.
Prévision de mi-année du FIRST : ~66 000 CVE en 2026, mais le risque exploitable reste stable
Le 15 juin 2026, le FIRST a révisé sa projection 2026 à ~66 000 CVE — 46,3 % au-dessus de février — porté surtout par la découverte assistée par IA. Le sous-ensemble actionnable trié via EPSS et CISA KEV n'a pas progressé au même rythme.
Les chat templates sont du code : injection Jinja2 (SSTI) dans les serveurs d'inférence LLM
Le bulletin VU#915947 du CERT/CC (20 avril 2026) documente CVE-2026-5760, une RCE CVSS 9.8 dans SGLang : un fichier de modèle GGUF malveillant embarque un chat template Jinja2 qui exécute du Python sur le serveur. Même classe que Llama Drama et une faille vLLM avant lui.
Oracle poisoning : corrompre le graphe de connaissances sur lequel raisonne un agent
Un article publié sur arXiv le 10 mai 2026 définit l'Oracle Poisoning : corrompez le graphe de connaissances qu'un agent interroge à l'exécution et il tire de fausses conclusions par un raisonnement correct. Sur neuf modèles, la confiance dans les données empoisonnées a atteint 100 % en requêtes agentiques dirigées.
La couche de service est la surface d'attaque : bugs de concurrence dans vLLM et SGLang
Un fuzzer de mai 2026, GRIEF, traite des traces de requêtes concurrentes comme entrées et trouve 15 bugs (2 CVE) dans vLLM et SGLang : contamination de sortie entre requêtes, déni de service « voisin bruyant » et crashs différés — sans entrée malformée.
CVE-2026-26268 : l'agent de Cursor transforme un git checkout en exécution de code
Un dépôt malveillant cache un dépôt Git « bare » doté d'un hook automatique. Quand l'agent IA de Cursor lance git checkout pour « expliquer le code », le hook se déclenche — exécution de code arbitraire sur la machine du développeur, sans confirmation. Corrigé dans Cursor 2.5.
MalTool : quand une IA écrit l'outil malveillant que votre agent installe
Des chercheurs ont synthétisé 6 487 outils d'agent malveillants fonctionnels à l'aide d'un LLM de code. VirusTotal en a manqué la majorité. La leçon : le scan par signatures est le mauvais contrôle pour la chaîne d'approvisionnement des outils d'agents.
Attaques médiées par l'utilisateur : quand l'utilisateur devient le canal d'injection
Une étude de janvier 2026 sur 12 agents commerciaux montre que l'attaquant n'a pas besoin de toucher l'agent. Il piège un utilisateur de bonne foi pour qu'il relaie un contenu empoisonné — que la hiérarchie d'instructions promeut alors au rang d'intention utilisateur de confiance. Taux de contournement par défaut supérieur à 92 %.
CVE-2026-26030 : l'injection de prompt devient RCE dans Microsoft Semantic Kernel
L'AI Red Team de Microsoft a montré deux failles de Semantic Kernel qui transforment un simple prompt injecté en exécution de code sur l'hôte. La leçon : tout paramètre d'outil influençable par le modèle est une entrée contrôlée par l'attaquant. Corrigé le 7 mai 2026.
SearchGEO : faire recommander des pages d'attaquant par les agents de recherche LLM
Un papier arXiv du 15 juin 2026 mesure comment un contenu web contrôlé par un attaquant devient une recommandation endossée par l'agent — le taux de succès va de 0 % à 31,4 % selon le modèle.
LiteLLM CVE-2026-49468 : un contournement d'authentification par en-tête Host dans le routage de la passerelle
Divulguée le 17 juin 2026, CVE-2026-49468 permet à un en-tête Host forgé de désynchroniser la route d'auth de LiteLLM de celle exécutée par FastAPI — une rechute de BadHost au niveau applicatif, corrigée dans LiteLLM 1.84.0.
SkillVetBench : un LLM-juge qui voit ce que les scanners de skills ratent
Un papier arXiv du 14 juin 2026 montre que les scanners de skills au niveau code ratent 89 à 100 % des menaces au niveau instruction, là où un LLM-juge détecte les 78 skills malveillantes de test sans aucun faux positif.
Vers des agents LLM sûrs : un SoK de 247 papiers qui repense la sécurité des agents comme un problème système
Une étude arXiv du 9 juin 2026 portant sur 247 papiers replace la sécurité des agents LLM sur la boucle agentique : des défenses qui marchent isolément mais se composent mal, et des benchmarks aveugles au risque long et à état.
Agents zombies : quand un agent LLM auto-évolutif reste compromis d'une session à l'autre
Une injection indirecte ponctuelle, observée pendant une session anodine, peut être écrite dans la mémoire longue de l'agent puis rejouée comme instruction — transformant un prompt éphémère en contrôle persistant. Article d'attaque daté de février 2026, défense (CAMS) de mai 2026.
Géométrie comportementale : prédire la vulnérabilité au jailbreak dans une population de modèles
Un papier arXiv du 26 mai 2026 cartographie 79 modèles dans une « géométrie comportementale » pour prédire lesquels sont sensibles au jailbreak — avec 98 % de sondes en moins — et transférer les défenses entre eux.
SafeMCP : filtrer l'acquisition d'outils pour contenir la quête de pouvoir des agents MCP
Un papier arXiv du 1er juin 2026 (ACL 2026) propose SafeMCP, un plugin côté serveur qui utilise un raisonnement anticipatif par modèle du monde pour filtrer l'acquisition d'outils dangereux avant qu'un agent MCP n'étende ses pouvoirs.
Provenance d'exécution des agents LLM : tracer les preuves pour rétablir la confiance
Une étude arXiv de juin 2026 (2606.04990) systématise le traçage de preuves et la provenance d'exécution des agents LLM — la couche de responsabilité qui permet d'auditer, déboguer et vérifier ce qu'un agent a réellement fait.
Ghost tool calls : l'exécution spéculative des agents fuite l'intention de l'utilisateur
Un papier arXiv de juin 2026 (2606.02483) montre que les agents qui pré-émettent spéculativement des appels d'outils pour masquer la latence fuitent l'intention déduite de l'utilisateur vers des services externes — et que c'est un problème de timing qu'aucune allow-list n'annule.
La triade létale est devenue la norme — défendez les agents à l'exécution
La triade létale signalait jadis les agents à risque. Mi-2026, elle décrit tout agent utile : l'évitement architectural ne suffit plus. La défense se déplace vers cinq signaux comportementaux à l'exécution.
AI Agent Traps : la cartographie en six catégories de DeepMind sur le détournement des agents par le web
Le papier « AI Agent Traps » de Google DeepMind (SSRN, fin mars 2026) propose la première taxonomie systématique des contenus web adverses qui ciblent la perception, le raisonnement, la mémoire, l'action, la dynamique multi-agents et le superviseur humain d'un agent.
Les jailbreaks adaptatifs continuent de percer les défenses LLM : le vrai problème, c'est l'évaluation
Un framework de juin 2026, UniAttack, compose des « caractéristiques » d'attaque réutilisables en jailbreaks one-shot qui se transfèrent d'un modèle et d'une défense à l'autre — preuve qu'une défense testée seulement contre des attaques statiques offre une fausse assurance.
DoubtProbe : détecter les jailbreaks qui réorganisent l'intention
Un papier de juin 2026 propose une défense à l'inférence qui traite la détection de jailbreak comme un contrôle de cohérence : on reconstruit la requête sous contraintes structurelles, puis on signale les prompts dont le sens ne survit pas à l'aller-retour.
ShadowMerge : empoisonner la mémoire-graphe des agents par collision de relations
Un papier de mai 2026 empoisonne la mémoire-graphe d'un agent avec des relations qui partagent un ancrage et un canal réels mais portent une valeur contradictoire — 93,8 % de réussite sur Mem0, et les filtres en entrée passent à côté.
Secret Stealing : du code de modèle piégé exfiltre vos données de fine-tuning
Un papier du 30 avril 2026 montre qu'un code de modèle altéré — et non des poids empoisonnés — peut voler clés d'API et données personnelles dans un fine-tuning local, avec >98 % de récupération, en contournant DP-SGD et les audits.
Black-Hole Attack : empoisonner une base vectorielle via la géométrie des embeddings
Un papier du 7 avril 2026 montre que quelques vecteurs placés près du centroïde sont remontés dans jusqu'à 99,85 % des top-10 — un empoisonnement de base vectorielle indépendant des requêtes et du modèle.
Pourquoi les défenses des agents LLM ne se composent pas : leçons de 247 papers
Une revue systématique de juin 2026 portant sur 247 papers conclut que les défenses des agents sont des briques utiles mais faiblement composables, et que les benchmarks ignorent encore le risque persistant et de long terme.
Inférence d'appartenance via le tokenizer d'un LLM : un nouveau vecteur
Un papier USENIX Security 2026 montre que le seul tokenizer d'un modèle peut révéler quels jeux de données ont servi au pré-entraînement — une attaque par inférence d'appartenance moins chère et sans modèle.
Les agents navigateurs trahissent leur modèle par leur façon de cliquer
Un papier du 14 mai 2026 montre que les actions d'un agent navigateur LLM sur une page suffisent à identifier le modèle sous-jacent, avec jusqu'à 96 % de précision sur 14 modèles de pointe — sans en-têtes falsifiables.
LiteLLM CVE-2026-47101→40217 : d'un compte limité à l'admin et au RCE
Obsidian Security a divulgué (juin 2026) une chaîne de trois failles LiteLLM qui fait passer un utilisateur peu privilégié à proxy_admin puis à l'exécution de code — une prise de contrôle CVSS 9.9 de la passerelle IA.
Sirens' Whisper : des jailbreaks inaudibles en quasi-ultrasons contre les LLM vocaux
Un article du 14 mars 2026 (Huazhong, Tsinghua, Microsoft) dissimule des prompts de jailbreak dans la bande 17–22 kHz. La non-linéarité du micro les redémodule en commandes — silencieux pour l'humain, jusqu'à 0,94 de non-refus sur des LLM vocaux commerciaux.
Où entrent vraiment les attaques contre les agents : une cartographie issue de 247 papers
Une étude de juin 2026 portant sur 247 papers mesure où atterrissent les attaques contre les agents LLM. Le prompt utilisateur n'est qu'une surface parmi d'autres — les canaux médiatisés (contenu web, sorties d'outils) dominent.
IICL : la complétion de motif bat l'alignement avec 10 exemples
Un papier arXiv d'avril 2026 retourne l'apprentissage en contexte contre le modèle : une dizaine d'exemples à base d'opérateurs abstraits font compléter à GPT-5.4 un motif nuisible que ses filtres de contenu ne détectent jamais.
Détecter les attaques dans le trafic d'appels d'outils : le contenu prime
Une étude arXiv de mai 2026 sur la supervision des appels d'outils MCP montre que les embeddings de contenu portent la détection (AUROC > 0,89), que la structure de graphe apporte peu, et que les splits aléatoires gonflent les scores jusqu'à 26 points.
Le « cold-start safety gap » : l'agent est le moins sûr au tout premier tour
Un papier de juin 2026 montre que les agents à outils sont les plus vulnérables au début d'une session et gagnent 9 à 52 % de sûreté après quelques tâches anodines. Le correctif est un « échauffement » au déploiement, pas un nouveau garde-fou.
RUBAS : un signal de récompense fin pour la sûreté des agents par RL à grilles
Un papier de juin 2026 remplace la récompense binaire refus/exécution par quatre grilles notées — usage d'outil, arguments, réponse, utilité — pour entraîner des agents qui restent sûrs sans perdre en utilité.
Les garde-fous anti-fine-tuning des modèles ouverts cèdent à des attaques sans gradient
Une étude CMU de mai 2026 montre que des garde-fous résistants à l'altération comme TAR et SEAM — conçus pour survivre au fine-tuning malveillant — sont contournés par deux attaques bon marché et sans gradient : l'abliteration et le prefilling.
MIRAGE : les agents GUI mobiles trompés par du contenu utilisateur injecté
Une étude de mai 2026 montre que les agents GUI mobiles fondés sur des VLM ne distinguent pas l'interface de confiance du contenu utilisateur. Du texte réaliste injecté dans des commentaires détourne les cinq agents testés (23–30 % de réussite).
LogJack : les logs cloud, canal d'injection de prompt contre les agents de débogage
Un benchmark d'avril 2026 montre que les agents de débogage LLM qui lisent les logs cloud et exécutent des correctifs obéissent aux instructions cachées dans les lignes de log — exécution verbatim jusqu'à 86,2 %, RCE sur 6 modèles sur 8, et des garde-fous fournisseurs qui ne détectent presque rien.
La « taxe de jailbreak » s'évanouit sur les modèles de pointe — et invalide une hypothèse de sécurité
Une étude d'avril 2026 montre que la perte de capacité causée par un jailbreak diminue à mesure que les modèles progressent : Haiku 4.5 chute de 33,1 %, Opus 4.6 de seulement 7,7 %. Les analyses de risque qui supposent qu'un modèle jailbreaké est dégradé ne tiennent plus.
Déni de service par extension de raisonnement : quand le garde-fou IA devient la surface d'attaque
Un papier de juin 2026 montre qu'un seul document piégé peut enfermer un garde-fou IA à base de raisonnement dans une boucle de réflexion sans fin, ralentissant les workflows d'agents jusqu'à 148x. La cible : la disponibilité, pas l'intégrité.
Agents de code IA : les attaquants visent le credential, pas le modèle
Six exploits de 2026 contre Codex, Claude Code, Copilot et Vertex AI ont tous contourné les défenses au niveau du modèle pour atteindre la même cible : les credentials d'exécution de l'agent. La cause profonde est un défaut de gouvernance des identités, pas un problème de prompt.
LiteLLM piégé : quand un scanner CI corrompu prend le contrôle de la passerelle LLM
En mars 2026, des attaquants ont volé le jeton de publication PyPI de LiteLLM en compromettant Trivy dans son pipeline CI, puis ont diffusé deux versions piégées. La chaîne montre pourquoi la passerelle LLM est une cible de choix.
Reprompt : exfiltration en un clic depuis Copilot Personal via prompt prérempli dans l'URL
Une faille corrigée de Copilot Personal enchaînait un prompt prérempli dans l'URL, un garde-fou qui ne vérifiait que la première requête, et des relances pilotées par serveur, pour une exfiltration furtive en un clic. Les leçons de contournement sont générales.
Checkpointers LangGraph : de l'injection SQL au RCE sur agents auto-hébergés
Check Point Research a enchaîné une injection SQL dans le checkpointer de LangGraph avec une désérialisation msgpack non sécurisée pour atteindre l'exécution de code à distance. Divulgué le 11 juin 2026 ; les trois CVE sont corrigées.
Empoisonnement de terminaison : piéger un agent LLM dans des boucles infinies
Un papier arXiv de mai 2026 montre qu'une injection peut fausser le jugement de fin de tâche d'un agent et provoquer un calcul sans borne. Le framework LoopTrap rapporte jusqu'à 25x d'amplification.
Canaux auxiliaires sur l'inférence LLM : vos prompts fuient malgré TLS
Le décodage spéculatif et les réponses en streaming créent des motifs de trafic qui révèlent le sujet d'un prompt, sa langue, parfois des données personnelles — à travers des connexions chiffrées. Tour d'horizon de trois papers et des défenses.
M3Att : empoisonnement de RAG médical multimodal sans connaître les requêtes
Un papier de mai 2026 empoisonne un RAG médical image-texte sans connaître à l'avance les requêtes des utilisateurs. Des perturbations d'image imperceptibles détournent la récupération ; un texte guidé par l'ambiguïté clinique échappe à l'autocorrection du modèle — et les défenses de pré-filtrage n'y changent presque rien.
SkillGuard : un cadre de permissions pour ce qu'une skill d'agent peut faire à l'exécution
Un papier de juin 2026 comble l'écart entre ce qu'une skill injecte dans le contexte d'un agent et ce qu'elle lui fait faire, via des manifestes, un contrôle d'accès deny-by-default et de la surveillance à l'exécution.
AI Act : comment les lignes directrices classent les systèmes agentiques en haut risque
Les lignes directrices de la Commission européenne du 19 mai 2026 sur l'article 6 imposent d'évaluer un système agentique dans son ensemble — un seul composant accessoire peut faire basculer toute la configuration en haut risque.
Red teaming Quality-Diversity : pourquoi un seul score de jailbreak masque toute une carte de failles
Deux papers de juin 2026 appliquent la recherche évolutionnaire Quality-Diversity au red teaming des LLM : ils révèlent de nombreuses classes de vulnérabilités distinctes par modèle plutôt qu'une seule « meilleure » attaque, et montrent que la sûreté peut régresser d'une génération de modèle à l'autre.
Backdoors leurres : supprimer les backdoors LLM inconnues via des mécanismes internes partagés
Un article de juin 2026 supprime des backdoors invisibles en en plantant une visible : différentes backdoors partagent des motifs d'activation internes, donc effacer un « leurre » contrôlé affaiblit aussi l'inconnue.
Semantic Compliance Hijacking : des skills d'agent sans payload, invisibles aux scanners
Un papier arXiv du 14 mai 2026 montre qu'un fichier de skill sans code ni intention malveillante explicite peut amener un agent de code à écrire lui-même son malware à l'exécution — avec un taux de détection de 0,00 %.
FragFuse : des requêtes fragmentées qui contournent le contrôle d'accès des agents LLM
Un papier arXiv du 14 juin 2026 montre qu'une requête interdite peut être découpée en fragments anodins, stockée dans la mémoire longue de l'agent, puis recomposée à la lecture — contournant les contrôles d'accès dans 86,3 % des cas.
Preuve NIST : aucun garde-fou fini ne bloque tous les jailbreaks
Un scientifique du NIST applique la logique d'incomplétude de Gödel pour prouver que tout ensemble fini de garde-fous peut être contourné par un prompt — l'argument d'un modèle de sécurité en surveillance et mise à jour continues.
Langflow CVE-2026-5027 : écriture de fichier non authentifiée vers RCE, déjà exploitée
Un path traversal dans l'endpoint /api/v2/files de Langflow permet à une requête non authentifiée d'écrire un fichier n'importe où sur le disque. VulnCheck a confirmé l'exploitation active le 9 juin 2026 ; ~7 000 instances sont exposées.
La sécurité des agents se joue dans les transitions, pas dans les composants
Une synthèse de juin 2026 portant sur 247 articles recadre la sécurité des agents LLM autour des transitions d'état : le danger survient quand un texte non fiable devient silencieusement un plan, une décision, une action ou une mémoire durable.
Des dirigeants de l'IA demandent au Congrès de rendre obligatoire le criblage de la synthèse d'ADN
Le 5 juin 2026, les patrons d'OpenAI, Anthropic, Google DeepMind et Microsoft AI ont cosigné une lettre exhortant le Congrès à imposer le criblage de la synthèse d'acides nucléiques — présenté comme un contrôle défensif face à l'érosion des barrières par l'IA.
Para-jailbreaking : quand la « safe completion » fuit le danger dans l'alternative
Un papier arXiv du 27 avril 2026 nomme un nouveau mode de défaillance de la sûreté centrée sur la sortie : le modèle refuse correctement la question directe, mais laisse fuir du contenu nuisible dans l'« alternative sûre » qu'il propose à la place.
SCONE-bench : chiffrer l'exploitation autonome par IA en dollars volés
L'étude d'Anthropic du 1er décembre 2025 mesure l'exploitation par agents IA en argent, pas en taux de réussite : sur des smart contracts, les modèles de pointe ont produit 4,6 M$ de vol simulé et deux vrais zero-days à 1,22 $ le scan.
Agentjacking : de faux bugs Sentry détournent les agents de code via MCP
La recherche de Tenet Security (juin 2026) montre qu'un attaquant peut injecter une fausse erreur Sentry que les agents de code lisent via MCP et exécutent, exfiltrant des secrets avec 85 % de réussite sur 2 388 organisations exposées.
HAMLOCK : une porte dérobée partagée entre le modèle et la puce
Un article USENIX Security 2026, médiatisé le 15 juin 2026, scinde une porte dérobée entre le logiciel et le silicium : le modèle seul ne se trompe jamais, et les scanners logiciels comme Neural Cleanse ou MNTD ne voient rien.
Les défenses par provenance de la mémoire-graphe des agents sont aveugles par construction
Un article arXiv daté du 10 juin 2026 montre que les contrôles de provenance sur la mémoire-graphe des LLM se contournent sans falsifier aucune source : une écriture de structure non fiable change quels faits authentifiés sont sélectionnés, et le contrôle de flux d'information ne le voit jamais.
La vie privée d'un agent est un problème de trajectoire : OCELOT budgétise la fuite par inférence à l'exécution
Un article arXiv daté du 10 juin 2026 redéfinit la vie privée des agents LLM comme un contrôle du risque a posteriori : non plus filtrer chaque sortie, mais budgétiser de combien la croyance d'un adversaire sur un secret peut progresser sur toute une trajectoire.
Exposition des traces de raisonnement : masquer le chain-of-thought ne le protège pas
Un papier de mai 2026 montre qu'un simple prompt suffit à faire ressortir le chain-of-thought masqué d'un modèle de raisonnement — et que les traces récupérées suffisent à distiller un modèle plus petit.
Directions d'évasion du refus : pourquoi l'alignement ne peut pas refermer la brèche des jailbreaks
Un papier de mai 2026 prouve que les LLM alignés conservent des « directions d'évasion du refus » inscrites dans leur structure d'opérateurs — ce qui explique la persistance des jailbreaks et le coût en utilité de leur suppression.
Skills d'agent vérifiés : gouvernance des capacités pour la chaîne SKILL.md
Les skills d'agent vérifiés de NVIDIA (19 mai 2026) ajoutent scan de risques, signature cryptographique et fiches de skill lisibles par machine à la chaîne SKILL.md — une réponse défensive aux skills empoisonnés.
SearchLeak (CVE-2026-42824) : un clic transforme M365 Copilot en proxy d'exfiltration
Varonis a publié le 15 juin 2026 les mécanismes de CVE-2026-42824 : un lien microsoft.com piégé enchaîne injection de prompt, course au rendu HTML et SSRF Bing pour voler mails et codes MFA. Corrigé côté serveur.
Parallax : placer la sécurité des agents dans l'architecture, pas dans le prompt
Un position paper publié le 14 avril 2026 soutient que les garde-fous au niveau du prompt s'effondrent dès que le raisonnement d'un agent est compromis, et propose de séparer structurellement ce qui pense de ce qui agit.
Cross-App Context Poisoning : une app ChatGPT malveillante peut piloter les autres
Une étude arXiv de juin 2026 montre qu'une app ChatGPT malveillante peut écrire dans le contexte de conversation partagé par toutes les apps connectées via des API first-party, transformant le modèle en député confus.
Divulgation à la vitesse machine : leçons du premier registre de vulnérabilités IA
Le registre de divulgation coordonnée d'Anthropic, analysé par VulnCheck le 9 juin 2026, montre l'IA remontant 23 019 bugs candidats quand seuls 1 596 atteignent les mainteneurs — un aperçu de la divulgation à l'ère de la découverte automatisée.
Architecturer des agents sûrs : une défense « plan et politique » contre l'injection de prompt
Un position paper de NVIDIA (31 mars 2026) soutient que l'injection de prompt indirecte ne se corrige pas au seul niveau du modèle — et propose une architecture « plan et politique » qui contraint ce qu'un agent peut observer et décider.
GraphSteal : reconstruire un graphe de connaissances privé depuis un Graph RAG
Un article publié le 27 mai 2026 montre que de simples requêtes en boîte noire transforment un système Graph RAG en oracle structurel, reconstruisant plus de 90 % de son graphe de connaissances caché.
Systèmes multi-agents LLM cross-domaine : sept défis de sécurité
Une Perspective publiée le 13 juin 2026 dans npj Artificial Intelligence cartographie sept défis de sécurité qui apparaissent lorsque des agents LLM de différentes organisations collaborent sans modèle de confiance commun.
MEntA : inférence d'appartenance sur un corpus RAG en cinq requêtes
Un papier USENIX Security de mai 2026 montre qu'un attaquant peut déterminer si un document figure dans le corpus de récupération d'un RAG avec environ cinq questions en langage naturel — sans modèle fantôme, sans gabarit, et en résistant aux défenses actuelles.
Quand le #1 des tendances est un malware : le typosquat Hugging Face Open-OSS/privacy-filter
Le 7 mai 2026, HiddenLayer a trouvé Open-OSS/privacy-filter, un typosquat du modèle d'OpenAI arrivé en tête des tendances Hugging Face avec ~244 000 téléchargements en 18 heures, qui livrait un infostealer Rust.
Quand un État retire un modèle : la suspension de Fable 5 / Mythos 5
Le 12 juin 2026, une directive de contrôle des exportations américaine a contraint Anthropic à désactiver Claude Fable 5 et Mythos 5 dans le monde entier. Le déclencheur invoqué : un « jailbreak » qui revient à demander au modèle de lire du code et d'en corriger les failles — une tâche défensive quotidienne.
XL-SafetyBench : tester la sûreté des LLM dans 10 pays, pas seulement en anglais
Un papier arXiv du 7 mai 2026 (AIM Intelligence et l'AI Red Team de Microsoft) montre que les tests de sûreté anglo-centrés ratent les risques propres à chaque pays — et que la « sûreté » de beaucoup de modèles n'est qu'un refus par accident.
MalSkillBench : on ne sait pas mesurer les détecteurs de skills malveillants, car les jeux de test sont biaisés
Un article de juin 2026 construit le premier benchmark à vérification d'exécution des skills d'agent malveillants — 3 944 échantillons sur 108 cellules d'attaque — et montre que le rappel d'un même détecteur peut varier de 66 points selon le jeu de données utilisé.
Pourquoi les détecteurs d'injection de prompt échouent : le problème d'évasion en 2026
Des classifieurs par mots-clés aux sondes de dérive d'activation, les détecteurs d'injection de prompt partagent une faiblesse : l'adversaire adaptatif. Deux études rapportent jusqu'à ~100 % d'évasion. La détection est une couche, jamais la frontière.
La confidentialité des LLM n'est pas un risque unique : par quoi commencer
Une étude de mai 2026 mesure inférence d'appartenance, inférence d'attribut, extraction de données et portes dérobées sous un même modèle de menace. Conclusion : la fuite dépend de vos choix de conception — taille, duplication des données, configuration RAG — plus que de l'attaque.
TOCTOU dans les agents IA : violations d'atomicité entre observation et action
Une vieille faille des systèmes d'exploitation refait surface dans les agents : le monde change entre le moment où l'agent regarde et celui où il agit. Des travaux de 2026 la formalisent pour les agents GUI, navigateur et multi-agents.
Profondeur d'injection dans les agents ReAct : la position prime sur la formulation
Une étude de juin 2026 sur les agents ReAct à appels d'outils montre que c'est la profondeur d'injection — pas la rhétorique — qui pilote l'injection indirecte : 60 % de réussite au premier appel d'outil, 0 % au quatrième.
Confidential Computing et IA agentique : ce que les enclaves ne protègent pas
Une étude de mai 2026 projette le confidential computing sur la pile agentique : les enclaves matérielles protègent la mémoire et le cache KV d'un opérateur cloud malveillant, mais n'arrêtent pas la prompt injection.
Le serveur MCP de Splunk journalise les jetons d'auth en clair (CVE-2026-20205)
L'app Splunk MCP Server écrivait les jetons de session et d'autorisation des utilisateurs en clair dans l'index _internal — une faille CWE-532 (secrets dans les logs) qui transforme l'accès aux journaux en vol de jetons. Corrigé en v1.0.3.
Le DNS rebinding transforme les serveurs MCP en localhost en surface d'attaque distante
Une vague de divulgations coordonnées 2025–2026 a touché tous les grands SDK MCP pour une même cause racine : des serveurs HTTP en localhost qui ne valident pas l'en-tête Host/Origin. La plus récente, CVE-2026-11624 dans le MCP Toolbox de Google (13 juin 2026), est notée Critique 9,4.
Pourquoi les jailbreaks se transfèrent entre modèles — et comment le « salage » riposte
Une étude sur 20 modèles open-weight montre que le transfert des jailbreaks vient des représentations internes partagées, pas d'un défaut de l'alignement. Une défense appelée LLM salting fait pivoter la direction de refus pour casser la réutilisation.
Un modèle sûr n'est pas un agent sûr : les leçons du benchmark ClawSafety
Un benchmark d'avril 2026 exécute 2 520 essais en bac à sable sur des agents IA personnels et mesure des taux de réussite d'attaque de 40 à 75 %. Les variables décisives sont le canal d'injection et le framework de l'agent — pas seulement le modèle sous-jacent.
ktransformers : RCE non authentifiée via pickle sur ZeroMQ (CVE-2026-26210)
Une RCE critique dans le moteur d'inférence ktransformers expose un socket ZMQ sur toutes les interfaces et déserialise via pickle tout ce qu'il reçoit. C'est le dernier cas du motif « ShadowMQ » recopié à travers les stacks d'inférence IA.
CVE-2026-46519 : quand un serveur MCP filtre les outils à l'affichage mais pas à l'exécution
mcp-server-kubernetes n'appliquait ses contrôles read-only et allow-list que dans tools/list, jamais dans tools/call. Tout client connaissant le nom d'un outil pouvait l'exécuter. Une leçon nette sur l'autorisation à l'affichage vs à l'exécution.
CRCP : l'empoisonnement de corpus RAG qui survit au chunking et au reranking
Un article arXiv du 9 juin 2026 montre que beaucoup d'attaques par empoisonnement de corpus échouent discrètement après le reranking — et propose CRCP, une variante "chunk-aware" conçue pour survivre aux pipelines RAG réalistes. La leçon porte sur la façon d'évaluer, pas seulement de défendre.
Cyber Defense Benchmark : les LLM de pointe échouent au threat hunting
Un benchmark d'avril 2026 lâche cinq modèles de pointe dans des logs Windows bruts et leur demande de chasser. Le meilleur trouve 3,8 % des événements malveillants — aucun n'atteint le seuil d'un SOC autonome.
Routeurs d'API LLM malveillants : l'homme du milieu non surveillé des agents
Une étude de l'UC Santa Barbara (arXiv, 9 avril 2026) a mesuré 428 routeurs d'API LLM tiers : plusieurs injectaient du code, volaient des identifiants et ont vidé un portefeuille crypto — depuis une frontière de confiance que les développeurs configurent volontairement.
Flowise CVE-2026-41264 : du code pandas écrit par le LLM jusqu'au RCE
Une prompt injection dans l'agent CSV de Flowise pousse le modèle à produire du Python qui échappe à une liste noire d'expressions régulières et exécute des commandes OS. Divulguée le 15 avril 2026, corrigée en 3.1.0.
SafeHarbor : un garde-fou à mémoire hiérarchique qui s'attaque au sur-refus des agents
Accepté à ICML 2026, SafeHarbor est un garde-fou sans réentraînement qui injecte des règles de sécurité contextuelles depuis un arbre de risques auto-évolutif — 63,6 % d'utilité bénigne sur GPT-4o tout en refusant plus de 93 % des attaques.
SEC-bench Pro : les agents IA savent-ils vraiment chasser les bugs dans V8 et SpiderMonkey ?
Un benchmark du 26 mai 2026 mesure les agents de code sur la découverte de vulnérabilités au long cours dans de vrais moteurs de navigateur. Les modèles de pointe restent sous 40 % — et l'écart compte autant pour l'attaque que pour la défense.
L'injection de prompt n'est pas résolue — contenez-la à la vitesse machine
À l'Infosecurity Europe 2026, Ariel Fogel (OWASP) a qualifié l'injection de prompt de problème architectural non résolu et plaidé pour un passage de la prévention au confinement à l'exécution, aussi rapide que l'agent.
SecureClaw : une défense à double frontière pour les agents LLM outillés
Un article de juin 2026 propose de garder deux frontières distinctes à la fois — autoriser les actions externes au point d'effet et confiner le texte en clair à la frontière de lecture — avec 0 % de réussite d'attaque sur un benchmark d'agents.
Jailbreak vidéo multi-clips : pourquoi la vidéo casse la sûreté des LLM multimodaux
Un papier ACL de juin 2026 montre que le canal vidéo est une frontière de sûreté plus faible que l'image : le taux de réussite grimpe quand la vidéo est découpée en clips variés.
SIGIL : prouver que votre texte a servi à entraîner un LLM
Un papier arXiv de juin 2026 propose d'insérer des canaris imperceptibles dans des textes et du code pour prouver, avec un taux de faux positifs contrôlé, qu'un modèle a été entraîné sur vos données.
ConVerse : quand deux agents discutent, c'est le plus fort qui fuit le plus
Un benchmark des conversations agent-à-agent montre que les attaques de confidentialité réussissent jusqu'à 88 % du temps, les atteintes de sécurité jusqu'à 60 % — et que les modèles les plus capables fuitent davantage, pas l'inverse.
Injection neuro-prompt : quand le signal cérébral devient le canal d'autorisation d'un agent
Un papier arXiv du 8 juin 2026 nomme une nouvelle surface d'attaque : les pipelines BCI-vers-agent qui transforment l'EEG décodé en canal d'autorisation. Trois vecteurs inversent l'action routée pendant que les moniteurs EEG et texte restent aveugles.
PI-Hunter : auditer les agents pour exposer et localiser les injections de prompt cachées
Un article de juin 2026 signé par des chercheurs de Google transforme le red-teaming d'injection de prompt en audit — PI-Hunter fait évoluer des cas de test ancrés dans la source pour révéler où une injection latente entre et se propage dans un agent, pas seulement si l'attaque réussit.
GitHub Action Claude Code : comment l'outil Read a fait fuiter des secrets CI/CD
Microsoft Threat Intelligence a découvert que l'outil Read de Claude Code Action contournait le scrub d'environnement de Bash pour lire /proc/self/environ, exposant l'ANTHROPIC_API_KEY du runner. Corrigé en v2.1.128.
Les serveurs MCP exposés, tremplins vers la prise de contrôle du cloud
Une injection de commande dans les serveurs MCP cloud (CVE-2026-5058/5059) permet d'atteindre le service de métadonnées, de voler le rôle IAM et de pivoter vers tout le compte cloud.
OWASP State of Agentic AI Security 2026 : l'injection de prompt relie la plupart des incidents d'agents
Le rapport OWASP State of Agentic AI Security and Governance v2.01 (1er juin 2026) passe des menaces hypothétiques aux CVE et brèches documentées. L'injection de prompt couvre désormais six des dix catégories de risque agentique.
Fuite d'identifiants dans les skills d'agents LLM : une étude sur 17 000 skills
Une étude arXiv du 3 avril 2026 a analysé 17 022 skills d'agents et trouvé 520 fuites d'identifiants — 73,5 % via des logs de debug qui déversent les secrets directement dans le contexte du modèle.
Au-delà du tool poisoning : ce qu'un serveur MCP distant malveillant peut vraiment faire
Une étude du 21 mai 2026 cartographie toute la surface d'attaque des serveurs MCP distants malveillants sur ChatGPT, Claude Desktop et Gemini CLI — le filtrage côté hôte passe de 95 % à 50 % pour la même requête, et les attaques réussies ne sont presque jamais signalées.
Injection par flux d'outils : pourquoi les défenses d'agents statiques cassent, et ce que corrige le verify-before-commit
Un papier de janvier 2026, VIGIL, recentre l'injection indirecte sur le flux d'outils — descriptions falsifiées et faux messages d'erreur — et montre que mieux un agent est aligné, plus il leur obéit.
Dans GitHub Agentic Workflows : une architecture de sécurité pour les agents CI/CD
GitHub Agentic Workflows est passé en préversion publique le 11 juin 2026 avec une conception « sécurité d'abord » : agents sans secret dans une prison chroot, pare-feu de workflow, écritures mises en attente puis vérifiées, et un job de détection de menaces. La réponse défensive à l'injection de prompt en CI/CD.
Inversion de prompt : l'inférence LLM distribuée fuit, une défense rigoureuse arrive
Les attaques par inversion de prompt reconstruisent jusqu'à 88,4 % des tokens d'entrée depuis les activations intermédiaires. Un papier soumis le 10 juin 2026 propose la première défense informationnelle.
L'entrée multimodale comme surface d'attaque : la RCE du décodeur vidéo de vLLM (CVE-2026-22778)
CVE-2026-22778 transforme une URL vidéo malveillante en exécution de code à distance sur les serveurs vLLM, en chaînant une fuite d'info PIL et un débordement de tas dans le décodeur JPEG2000 de FFmpeg. Corrigé en 0.14.1.
TRUSTDESC : dériver les descriptions d'outils depuis le code pour désamorcer le tool poisoning
Un papier d'avril 2026 s'attaque au tool poisoning à la racine : générer la description d'un outil à partir de son implémentation plutôt que de faire confiance au texte fourni par l'auteur, neutralisant le poisoning implicite que les détecteurs ratent.
Plus récent ne veut pas dire plus sûr : l'alignement de sécurité non monotone entre générations
Un papier de mai 2026 red-teamant quatre générations de Gemma révèle que le modèle intermédiaire était bien plus facile à jailbreaker que son prédécesseur et son successeur : la sécurité ne progresse pas en ligne droite.
RTK (CVE-2026-45792) : des filtres non fiables masquent un backdoor à la revue IA
Pillar Security a divulgué le 20 mai 2026 une faille dans RTK, un filtre d'optimisation de tokens pour Claude Code : un .rtk/filters.toml fourni par le dépôt pouvait retirer silencieusement un backdoor de la sortie des commandes avant que le modèle ne la voie. La cible, c'est la perception de l'agent, pas son exécution.
Blanchiment de causalité : quand un appel d'outil refusé fuite quand même
Un article d'avril 2026 montre que refuser l'appel d'outil d'un agent ne met pas fin à l'attaque : le refus lui-même est un canal d'information. Le suivi de teinte à plat le manque.
DeepMind et ses partenaires ouvrent un fonds de 10 M$ pour la sûreté multi-agents
Le 11 juin 2026, Google DeepMind, Schmidt Sciences, la Cooperative AI Foundation et l'ARIA ont ouvert un appel de 10 M$ pour fonder un champ de recherche sur la sûreté de millions d'agents IA en interaction.
Le Recuse Signal : un robots.txt pour les agents qui détiennent de vrais identifiants
Un article de juin 2026 propose un signal de « refus » in-band — émis via une bannière SSH ou un NOTICE PostgreSQL — qui demande poliment à un agent autonome de se retirer. En pilote, il a induit 100 % de recusal, mais un cadrage d'autorisation a fait repartir le modèle le plus capable.
CodeSpear : quand le décodage sous contrainte grammaticale devient une surface de jailbreak
Un papier arXiv du 10 juin 2026 montre que la fonctionnalité de fiabilité qui force la sortie de code d'un LLM à être syntaxiquement valide peut elle-même servir de jailbreak. Appliquer une grammaire de code anodine contourne les refus ; la défense CodeShield des auteurs répond par du code leurre.
Le trilemme de la défense : pourquoi les wrappers anti-injection ne peuvent être complets
Une preuve vérifiée en Lean 4 (avril 2026) montre qu'aucun wrapper d'entrée continu et préservant l'utilité ne peut bloquer toute injection de prompt. Continuité, utilité et complétude ne peuvent coexister.
Souveraineté mnésique : sécuriser tout le cycle de vie mémoire des agents
Une étude d'avril 2026 reformule la sécurité de la mémoire des agents LLM en un cycle de vie à six phases et montre que le domaine néglige l'oubli, la confidentialité et la dérive non adversariale.
L'injection continue de faire fuiter Copilot : deux nouveaux CVE de juin 2026
Le Patch Tuesday du 9 juin 2026 a livré CVE-2026-42824 et CVE-2026-47644 — deux failles de divulgation d'information de classe injection sur la surface Copilot, dans la lignée d'exfiltration ouverte par EchoLeak.
ChromaToast : une RCE pré-auth dans la base vectorielle ChromaDB
La divulgation de HiddenLayer du 18 mai 2026 (CVE-2026-45829, CVSS 10.0) montre que le serveur Python de ChromaDB charge le modèle HuggingFace de l'attaquant et exécute son code avant même de vérifier l'authentification.
DACSI : quand les documents récupérés falsifient les signaux de contrôle du système
Un papier du 8 juin 2026 nomme un mode de défaillance discret du RAG : du texte non fiable qui usurpe les signaux de métadonnées, de provenance et de politique. Pas besoin d'« ignore previous instructions » — la leçon : un label écrit dans un document est une donnée, pas une politique.
AgentDyn : pourquoi les défenses anti-injection brillantes sur benchmark échouent en conditions réelles
AgentDyn, un benchmark ICML de février 2026, teste dix défenses anti-injection de premier plan sur des tâches d'agent dynamiques et ouvertes. Presque toutes sont soit non sûres, soit surdéfensives au point d'être inutilisables.
StakeBench : qui paie vraiment quand un agent web se fait injecter ?
Un benchmark centré sur les parties prenantes (NTU, IBM Research, UIUC) montre que les agents web échouent sur tous les objectifs d'injection testés — et que le préjudice retombe souvent sur des tiers, pas sur l'utilisateur.
Ver Hades : la config d'agent de code piégée qui s'exécute à l'ouverture du dépôt
Le ver Hades commit des fichiers de configuration pour Claude Code, Gemini, Cursor et VS Code qui s'exécutent au démarrage de session ou à l'ouverture du dossier — transformant un dépôt cloné en voleur d'identifiants, sans aucune étape d'installation.
Le paradoxe de l'injection : quand une injection de prompt se retourne et efface une marque dans le RAG
Un préprint arXiv du 8 juin 2026 montre qu'une injection de prompt dans un document récupéré peut se retourner sur les modèles Claude alignés, faisant chuter une marque de 54 % à 0 % de recommandation — ouvrant une contre-attaque visant les concurrents.
Décomposition à contexte fracturé : jailbreaks par les failles de provenance
Un papier arXiv du 8 juin 2026 formalise le « trou de provenance » des agents outillés : un comportement nuisible assemblé à partir d'actions anodines réparties dans le temps, jusqu'à +28,3 points de réussite.
Modèle de maturité agentique OWASP : ne restez pas dans les cases rouges
Le rapport State of Agentic AI d'OWASP (juin 2026) ajoute un modèle de maturité d'adoption : une grille à deux axes où l'autonomie des agents dépasse la gouvernance, créant des « cases rouges » que personne ne supervise.
SABER : les agents de code échouent à la sûreté opérationnelle même quand ils refusent les prompts malveillants
Un benchmark du 31 mai 2026 évalue les agents de code LLM sur l'état final d'un vrai dépôt, pas sur le refus de prompt. Même le meilleur modèle laisse une violation nuisible dans plus de la moitié des runs.
Contournement d'allowlist dans Cursor : les built-ins du shell empoisonnent l'environnement
CVE-2026-22708 permet à une injection de prompt d'utiliser des built-ins shell de confiance comme export et typeset pour empoisonner les variables d'environnement de Cursor, transformant une commande git ou python approuvée en exécution de code à distance. Corrigé en 2.3.
La supervision a une capacité : quand plus d'approbations rend l'agent moins sûr
Un papier arXiv du 8 juin 2026 modélise le relecteur humain derrière la porte d'approbation d'un agent comme une ressource finie qui fatigue — et montre qu'escalader plus d'actions peut réduire la sécurité réelle et ouvrir une attaque par saturation.
HPAA : une typographie que l'humain lit mais que les LLM de modération ratent
Un article du 8 juin 2026 introduit les attaques adverses perceptibles par l'humain : un texte nuisible qui reste évident pour un lecteur, mais échappe à la modération par LLM grâce à une manipulation typographique.
Plugins de chatbot web : comment des widgets non sécurisés amplifient l'injection de prompt
Une étude IEEE S&P 2026 portant sur 17 plugins de chatbot répartis sur plus de 10 000 sites révèle des historiques de conversation falsifiables (injections 3 à 8x plus fortes) et des outils de scraping qui mélangent contenu de confiance et contenu non fiable.
AuditBench : les LLM enquêteurs d'attaques sont des machines à faux positifs
Un benchmark de juin 2026 teste cinq LLM de pointe sur de vraies investigations de logs d'audit. Verdict : modèles trop soupçonneux, faux positifs en masse — et les petits modèles rivalisent avec les gros.
CASA : un contrôle d'accès par tâche qui confronte chaque appel d'outil à l'intention réelle de l'utilisateur
Un papier arXiv du 4 mai 2026 propose Continuous Agent Semantic Authorization — une couche zero-trust qui extrait la tâche de l'utilisateur d'une conversation multi-tours et refuse les appels d'outils qui n'y correspondent pas.
LiteLLM CVE-2026-42271 : les endpoints de test MCP mènent à une RCE non authentifiée
Divulguée en avril comme une injection de commande authentifiée, la fonction d'aperçu MCP de LiteLLM devient une RCE non authentifiée une fois chaînée au contournement BadHost de Starlette — ajoutée au KEV de la CISA le 8 juin 2026.
Attaques par flux de contrôle mémoire : quand la mémoire pilote les outils d'un agent
Un papier de mars 2026 montre que la mémoire empoisonnée d'un agent ne corrompt pas seulement le contenu : elle détourne le flux de contrôle de la sélection d'outils, forçant des outils non voulus et des étapes sautées dans plus de 90 % des essais, d'une tâche à l'autre et longtemps après l'injection.
Injection via config Transformers : une RCE silencieuse qui contourne trust_remote_code
CVE-2026-4372, divulguée le 4 juin 2026, permet à un seul champ de config.json d'exécuter du code attaquant lors d'un simple from_pretrained() — en contournant trust_remote_code=False dans Hugging Face Transformers.
ADR : détection et réponse pour agents MCP, éprouvé à l'échelle d'Uber
Un papier de mai 2026 signé Uber décrit un système type EDR pour agents MCP : télémétrie causale complète, détection à deux étages et red teaming hors ligne, déployé sur plus de 7 200 hôtes pendant dix mois.
Oublié mais récupérable : pourquoi le désapprentissage des LLM fuit toujours
Plusieurs travaux de 2025-2026 montrent que les connaissances « désapprises » d'un LLM restent récupérables — par quantification, prompts adverses, et désormais via les traces de raisonnement. Traiter le désapprentissage comme un effacement est une erreur.
ePCA : remplacer les garde-fous sémantiques d'agents par de la vérification formelle
Un article de mai 2026 propose ePCA, un garde-fou qui compile chaque action d'agent en logique du premier ordre et exécute une vérification SMT avant exécution, bloquant les étapes dangereuses sous forme de blocages logiques.
Serveurs MCP distants : 40 % sans authentification, OAuth cassé sur le reste
Une étude arXiv de mai 2026 a scanné 7 973 serveurs MCP distants : 40,55 % exposent leurs outils sans aucune authentification, et les 119 serveurs OAuth testés présentaient tous au moins une faille — 9 CVE attribuées.
Pourquoi il est difficile d'évaluer les agents de sécurité
Un position paper publié le 21 mai 2026 soutient que les classements utilisés pour noter les agents de sécurité sont discrètement faussés : le raisonnement adverse que l'on veut mesurer peut aussi casser le benchmark lui-même. Trois modes de défaillance, et comment évaluer honnêtement.
AgentTrust : filtrer les appels d'outils d'un agent avant leur exécution
Un préprint du 6 mai 2026 présente AgentTrust, une couche d'exécution qui inspecte chaque appel d'outil avant qu'il ne s'exécute et renvoie autoriser / avertir / bloquer / revoir — y compris sur les charges shell obfusquées.
Détecter l'extraction de modèle en observant la fenêtre de trafic, pas les requêtes isolées
Un papier de juin 2026 montre qu'un simple test de distribution (MMD sur les embeddings de requêtes, calibré uniquement sur le trafic légitime) détecte les campagnes d'extraction noyées dans un trafic d'API mixte — 0,3 % de faux positifs, 100 % sur le trafic purement attaquant.
La sécurité des agents est un problème de système : traiter le modèle comme non fiable
Un position paper de mai 2026 (Google, UCSD, UW–Madison) soutient que la sécurité des agents doit sortir du modèle pour passer dans le système : traiter le LLM comme un composant non fiable et imposer les invariants autour de lui.
Empoisonnement séquentiel : répartir une porte dérobée sur les étapes du post-entraînement
Un papier du 3 juin 2026 montre qu'un poison réparti entre données SFT et préférences — négligeable à chaque étape isolée — se combine en une porte dérobée fonctionnelle. Les audits par étape créent une « illusion de l'attaquant unique ».
Cinq attaques sur x402 : quand les agents IA paient, les coutures inter-couches fuient
Un papier du 12 mai 2026 casse formellement x402, le protocole de paiement agentique fondé sur HTTP 402. Cinq attaques sur le règlement, le rejeu, la couche web et la découverte — un paiement rejoué a produit 248 accès sur un endpoint en production.
Comment l'IA agentique comprime le cycle de l'attaque
Un article arXiv de mai 2026 modélise comment l'IA agentique réduit le coût de chaque étape d'une attaque — de la reconnaissance à la post-exploitation — comprimant la kill chain et redéfinissant les priorités défensives.
Pourquoi les développeurs d'agents IA indépendants passent à côté des risques de sécurité
Une étude arXiv de juin 2026 sur des développeurs d'agents IA indépendants révèle un angle mort centré utilisateur : on se concentre sur les contenus nuisibles en négligeant l'injection de prompt, l'exfiltration de données et les flux transfrontaliers.
SlotGCG : la position du token adverse, pas seulement son contenu, conditionne le jailbreak
Un papier de juin 2026 montre que les jailbreaks de type GCG gagnent ~14 % d'efficacité quand les tokens adverses sont placés à des emplacements corrélés à l'attention — et conservent 42 % de succès face au filtrage d'entrée.
L'outil shell de MS-Agent : une denylist regex transforme l'injection de prompt en RCE
CVE-2026-2256 permet à du contenu malveillant de pousser MS-Agent (ModelScope) à exécuter des commandes système. La cause racine est un anti-pattern connu : protéger un outil shell par une denylist regex plutôt que par une allowlist.
OWASP ASI02 : quand un agent retourne ses propres outils contre vous
Tool Misuse & Exploitation est le risque n°2 du Top 10 OWASP pour les applications agentiques 2026. Le danger n'est pas qu'un agent gagne de nouveaux outils — c'est qu'il détourne ceux qu'il possède déjà : sur-privilège, descripteurs empoisonnés, chaînage non maîtrisé.
VR de firmware mains libres : un agent LLM rétro-ingénie un interphone OT de bout en bout
Le 2 juin 2026, Claroty Team82 a lancé Claude Opus 4.6 avec un serveur MCP Ghidra contre le firmware d'un interphone Zenitel et a retrouvé un ensemble de CVE connues en moins de dix minutes — un aperçu de la recherche de vulnérabilités firmware devenue commodité.
Au-delà de la « sécurité de surface » : l'injection en milieu de séquence fait déraper les LLM alignés
Un papier arXiv du 3 juin 2026 montre que l'alignement de sécurité peut être détourné non seulement aux premiers tokens, mais à n'importe quelle étape de génération — et que les directions de refus dans les états cachés ne prédisent pas la robustesse.
Need to Know : réécriture de requêtes par intégrité contextuelle
Un papier arXiv du 2 juin 2026 reformule la réécriture de requêtes respectueuse de la vie privée comme un problème d'intégrité contextuelle : ne transmettre une donnée au LLM cloud que si la tâche en a besoin, pas parce qu'un type de PII a été reconnu.
Membrane : une mémoire de sécurité contrastive qui adapte les garde-fous sans réentraînement
Un papier arXiv du 4 juin 2026 propose Membrane, un garde-fou auto-évolutif qui associe chaque attaque bloquée à une requête bénigne quasi identique, ramenant le sur-refus à 7-14 % tout en dominant le F1 sur six jailbreaks.
Lockdown Mode d'OpenAI : couper la voie d'exfiltration du prompt injection
Le 6 juin 2026, OpenAI a étendu Lockdown Mode aux comptes ChatGPT personnels et Business en libre-service : un réglage déterministe qui désactive les canaux sortants utilisés pour exfiltrer des données via prompt injection.
Decision Hijacking : injecter le LLM qui classe vos résultats de recherche
Une série de travaux 2025-2026 montre que lorsqu'un LLM reclasse des candidats de recherche ou de RAG, quelques lignes injectées dans un seul document suffisent à le propulser en tête — la qualité du classement s'effondre de plus de 60 points NDCG, et les modèles les plus puissants sont les plus vulnérables.
THRD : une défense temporelle sans réentraînement contre les jailbreaks multi-tours
Un papier de juin 2026 soutient qu'un jailbreak multi-tours doit être jugé sur l'ensemble de la conversation, pas tour par tour. THRD agrège le risque dans le temps et ramène le taux de succès des attaques à 0,2–4 %, sans réentraînement.
MetaBackdoor : un déclencheur de backdoor fondé sur la longueur, invisible dans l'entrée
Un papier de mai 2026 de Microsoft et de l'Institute of Science Tokyo implante une backdoor dont le déclencheur est la longueur de l'entrée, pas son texte. Le prompt paraît propre, les filtres de contenu ne voient rien, et 90 exemples empoisonnés suffisent.
L'endpoint de build public de Langflow : RCE non authentifiée armée en 20 heures
CVE-2026-33017 transforme l'endpoint de build public de Langflow en exécution de code à distance non authentifiée. Divulguée le 17 mars 2026, elle était exploitée dans la nature en 20 heures — avant tout PoC public.
Deux pièges méthodologiques qui gonflent les scores des détecteurs d'injection de prompt
Un préprint arXiv du 1ᵉʳ juin 2026 montre que la plupart des benchmarks de détecteurs d'injection de prompt et de jailbreak reposent sur un réglage de seuil par jeu de données et des points de fonctionnement non divulgués — deux habitudes qui gonflent discrètement la précision annoncée.
AgentVisor : un patron type hyperviseur OS qui audite chaque appel d'outil
Un article arXiv du 27 avril 2026 emprunte l'idée de l'hyperviseur OS pour défendre les agents LLM outillés : un « visor » de confiance audite chaque appel d'outil et est architecturalement aveugle au contenu non fiable.
Taxonomie v2.0 des modes de défaillance agentiques de Microsoft : le contournement zéro-clic du humain dans la boucle
La taxonomie v2.0 de l'AI Red Team de Microsoft (4 juin 2026) ajoute sept modes de défaillance agentiques et désigne le contournement du humain dans la boucle comme le plus exploité — y compris des chaînes zéro-clic partant d'une seule entrée externe.
Back-Reveal : exfiltration de données par les propres appels d'outils d'un agent piégé
Un agent fine-tuné porte un déclencheur caché. Sur un signal anodin, il lit votre mémoire de session et l'expédie déguisée en simple appel de recherche — sans injection, sans outil malveillant. Article daté du 7 avril 2026.
VIPER-MCP : 67 CVE issues de failles de type taint sur 40 000 serveurs MCP
Un papier arXiv du 20 mai 2026 a audité 39 884 dépôts de serveurs MCP open source, confirmé 106 zero-days de bout en bout et obtenu 67 identifiants CVE. L'histoire, c'est le motif : une entrée d'agent non fiable qui atteint des sinks shell, réseau et fichiers.
Optimus : noter les jailbreaks au-delà du binaire révèle un régime furtif optimal
Un paper arXiv du 9 mai 2026 soutient que le taux de réussite binaire masque les jailbreaks les plus à craindre. Sa métrique Optimus note les prompts sur la similarité et la nocivité, et expose une bande « furtive optimale » où l'ASR s'effondre à zéro.
Aucun labo ne mesure le prompt injection de la même façon
Une comparaison du 1er juin 2026 des divulgations prompt injection d'Anthropic, OpenAI, Google et Meta montre qu'aucun labo ne partage de métrique, de surface ni de définition du succès — leurs chiffres ne sont pas comparables.
AgentRedBench : l'injection indirecte dans les agents SaaS est un défaut d'autorisation
AgentRedBench (juin 2026) red-team des agents LLM qui lisent des outils SaaS comme Gmail et Jira. Sans garde-fou, le taux de réussite des attaques va de 32 % à 81 % sur huit modèles de pointe, avant qu'un classifieur de réponses d'outils ne le réduise.
Vers IA adaptatifs : quand le malware embarque son propre LLM local
Un papier de l'Université de Toronto (juin 2026) démontre un ver qui exécute des LLM open-weight sur les machines qu'il compromet, adapte son exploit à chaque cible et arme des advisories publiés après la date de coupure du modèle.
CVE-2026-45497 : une injection de commande transforme Microsoft 365 Copilot en surface RCE
Le 4 juin 2026, le MSRC a publié CVE-2026-45497, une injection de commande dans Microsoft 365 Copilot classée en exécution de code à distance, avec un changement de portée franchissant la frontière du service. Corrigée côté serveur.
trust_remote_code=False n'est pas une frontière : la RCE récurrente au chargement de modèle dans vLLM
CVE-2026-27893 (divulguée le 27 mars 2026) est le troisième contournement de trust_remote_code dans vLLM. Deux fichiers de modèle codent en dur trust_remote_code=True, annulant silencieusement le choix de l'opérateur et ouvrant une RCE depuis un dépôt de modèle malveillant.
Quand un argument d'outil MCP devient un intent Android : les sinks de mobile-mcp
CVE-2026-35394 permet à une URL contrôlée par le modèle de déclencher des intents Android arbitraires via l'outil mobile_open_url de mobile-mcp. Couplée à une CVE jumelle de path traversal, elle révèle un motif : des arguments d'outil MCP qui atteignent des sinks sans validation.
L'agent qui écrit ses propres logs : pourquoi les journaux d'audit auto-déclarés ne sont pas fiables
Si un agent compromis produit lui-même son journal d'activité, il peut omettre, altérer ou fabriquer ce qu'il a fait. Trois travaux de juin 2026 — Notarized Agents (arXiv), un draft IETF sur l'audit trail des agents, et SCITT — convergent vers la même solution : déplacer la frontière de confiance hors de l'agent.
Les fichiers GGUF sont des entrées non fiables : les RCE récurrentes du parseur de llama.cpp
CVE-2026-33298 (mars 2026) et une divulgation oss-sec du 15 mai 2026 montrent que le parseur GGUF de llama.cpp enchaîne les corruptions de tas par dépassement d'entier : charger un modèle piégé peut suffire à exécuter du code.
MPBench : une taxonomie systématique de l'empoisonnement mémoire des agents LLM
Une étude arXiv du 3 juin 2026 cartographie quatre canaux d'écriture mémoire, neuf faiblesses structurelles et six classes d'attaque — et montre que les défenses anti-injection ne couvrent pas l'empoisonnement mémoire.
Quand les défenses par embedding échouent dans les systèmes multi-agents LLM
Un papier arXiv du 1er mai 2026 montre que les détecteurs qui écartent un agent malveillant via l'embedding de ses messages s'effondrent face à un texte rendu quasi-bénin — et propose les signaux de confiance par token comme remplacement plus robuste.
Injection AGENTS.md : une dépendance piégée peut réécrire en silence les ordres de votre agent de code
Un rapport de la NVIDIA AI Red Team du 20 avril 2026 montre qu'une dépendance malveillante peut déposer un AGENTS.md forgé au build, écraser la consigne du développeur et demander à OpenAI Codex de masquer la modification dans la pull request.
Contagion sociale : les agents LLM divulguent des données privées en environnement multi-agents
Une étude de mai 2026 simulant des milliers d'agents LLM montre que la fuite de données est socialement contagieuse : un agent divulgue ~8x plus après l'avoir vu faire par un pair, et les consignes de confidentialité réduisent sans éliminer le phénomène.
Vers auto-propagatifs d'agents et défense par ré-entrée temporelle
Un papier de mai 2026 formalise comment l'état persistant d'un agent permet à une charge d'injection de se réécrire dans le contexte du LLM, de se propager entre agents sans clic, et propose RTW-A — défense prouvée par un théorème de non-propagation.
PISmith : le red teaming par RL adaptatif casse encore les défenses anti-injection
Un papier de mars 2026 entraîne un modèle attaquant par apprentissage par renforcement pour éprouver les défenses anti-injection en boîte noire — et 8 défenses de pointe tombent, y compris sur AgentDojo et InjecAgent.
Le broker ZMQ de SGLang : RCE non authentifiée par désérialisation pickle
Trois CVE divulguées le 12 mars 2026 transforment les appels pickle.loads() de SGLang en exécution de code à distance non authentifiée. Le correctif est arrivé en v0.5.10 — mais la vraie leçon, c'est que pickle sur une socket réseau est une RCE par conception.
Tool poisoning sur 7 clients MCP : une comparaison de posture de sécurité
Une étude empirique de mars 2026 teste quatre attaques de tool poisoning contre Claude Desktop, Claude Code, Cursor, Cline, Continue, Gemini CLI et Langflow — et constate que l'essentiel de la protection vient du modèle, pas du client.
Empoisonnement de description : le canal d'agent que vos benchmarks ne testent pas
Une démo AWS Bedrock AgentCore de mai 2026 et un paper arXiv de juin 2026 convergent sur le même angle mort : les descriptions d'outils, lues avant chaque appel, sont un canal d'injection que les contrôles d'infra et les benchmarks à un seul chiffre ignorent.
La recherche hybride BM25 + vecteurs fait tomber l'empoisonnement RAG de 38 % à 0 %
Un préprint arXiv du 10 mars 2026 montre qu'ajouter du BM25 épars à la recherche dense bloque toute une classe d'empoisonnement de corpus RAG optimisé par gradient — sans toucher au LLM.
AgentShield : démasquer les agents compromis avec des honeytokens et des outils-leurres
Un papier de mai 2026 applique l'ingénierie de la déception aux agents LLM outillés : faux outils, fausses identifiants et listes blanches de paramètres sur lesquels un agent détourné trébuche. Détection annoncée de 90,7 à 100 % des attaques réussies, sans fausse alerte.
OWASP Agent Memory Guard : une couche d'exécution contre l'empoisonnement mémoire des agents
Relayé par Help Net Security le 1er juin 2026, Agent Memory Guard est la première implémentation de référence OWASP pour ASI06 : une couche prête à l'emploi qui filtre chaque lecture et écriture mémoire d'un agent selon une politique YAML.
Détecter l'exfiltration d'identifiants par les agents LLM avant le token de sortie
Publié le 2 juin 2026, un papier arXiv détecte les fuites d'identifiants d'un agent avant tout token de sortie — en combinant sondes d'activation, honeytokens calibrés et comptabilité de fuite multi-tour.
Acteurs malveillants IA cartographiés sur MITRE ATT&CK : le score ARiES et ce qu'il casse
Le rapport Anthropic du 3 juin 2026 cartographie un an de cyberattaques assistées par IA sur MITRE ATT&CK. Le constat pour les défenseurs : la sophistication, le nombre de techniques et l'interface ne prédisent plus le risque — l'orchestration, si.
AIRQ évalue 100 agents IA en production : 98 % cumulent la triade fatale
L'AI Risk Quadrant d'Adversa AI (juin 2026) note 100 agents commerciaux sur surface d'attaque, rayon d'impact et défenses. Seuls 11 % sont bien défendus ; l'exécution d'outils explique à elle seule 76 % du rayon d'impact.
Décret américain sur la sécurité de l'IA : un guichet de vulnérabilités et une revue des modèles de pointe
Signé le 2 juin 2026, le décret américain sur l'innovation et la sécurité de l'IA crée un guichet fédéral de vulnérabilités IA et une revue volontaire de 30 jours avant publication des « modèles de pointe couverts ».
CVE-2026-30615 : une prompt injection réécrit la config MCP de Windsurf en RCE
L'avis OX Security du 15 avril 2026 montre comment du contenu malveillant peut faire enregistrer à l'IDE Windsurf un serveur MCP STDIO hostile et exécuter des commandes — sans le moindre clic. La classe touche plusieurs agents de code, mais le CVE est pour Windsurf.
La system card d'Opus 4.8 chiffre l'injection de prompt sur agent navigateur : 31,5 %
La system card de Claude Opus 4.8 (28 mai 2026) rapporte un taux de détournement pré-garde-fous de 31,5 % pour son agent navigateur — la seule métrique d'injection de prompt publiée par un grand laboratoire ce printemps.
Agent Threat Rules : un « Sigma pour agents IA » — et ce que ses chiffres de rappel avouent
ATR propose des règles de détection YAML ouvertes pour les attaques d'agents, déjà en production chez Microsoft, Cisco et Gen Digital. Ses propres benchmarks montrent pourquoi la détection par regex est une couche, pas un périmètre.
ChatInject : forger les balises de rôle du chat template pour contourner la hiérarchie d'instructions
Un article d'ICLR 2026 montre qu'envelopper une charge d'injection indirecte dans les tokens du chat template d'un modèle forge un rôle prioritaire et fait passer le taux de succès de 5 % à 32 % sur AgentDojo, et jusqu'à 52 % en multi-tour.
ASPI : demander une clarification élargit la surface d'injection
Un benchmark arXiv du 17 mai 2026 montre que lorsqu'un agent s'interrompt pour demander une précision à l'utilisateur, le taux de réussite des injections passe de moins de 2 % à plus de 34 % sur o3 et Gemini-3-Flash.
SnapGuard : détecter l'injection dans ce que l'agent voit, pas dans ce qu'il parse
Un papier d'avril 2026 propose un détecteur léger pour les agents web fondés sur captures d'écran, là où les garde-fous textuels sont aveugles. Il lit les pixels rendus — stabilité des gradients et texte à polarité inversée — en 1,81 s par page.
CyBiasBench : les agents LLM offensifs tentent toujours les mêmes attaques
Un benchmark de mai 2026 a journalisé 630 sessions d'attaque et montre que les agents LLM en scénario cyber offensif se concentrent sur un petit sous-ensemble de familles d'attaques — quel que soit le prompt. C'est le biais, pas la compétence, qui dicte leurs choix.
Propagation d'autorisation : la faille des agents que les défenses anti-injection ne résoudront pas
Un papier de Krti Tallam du 6 mai 2026 décrit un problème propre aux systèmes multi-agents — la propagation d'autorisation — qui subsiste même avec une défense anti-injection parfaite : délégation transitive, inférence par agrégation, validité temporelle.
Recadrage de l'objectif : le seul élément du prompt qui pousse les agents LLM à exploiter une faille plantée
Une étude arXiv du 6 avril 2026 a mené ~10 000 essais sur sept modèles. La plupart des tactiques de « manipulation » n'ont rien produit — seul le recadrage de l'objectif, du type « vous résolvez une énigme », a poussé les agents à exploiter la faille.
CAESAR : des agents LLM coordonnés dépassent le plafond de raisonnement d'un modèle seul
Un article arXiv du 9 mai 2026 montre que scinder un attaquant LLM en cinq rôles typés surpasse un agent unique sur 25 épreuves CTF et quatre modèles — le gain vient de la structure de coordination, pas de la capacité brute.
ClawTrojan : l'injection stockée devient une porte dérobée persistante d'agent
Un paper arXiv du 29 mai 2026 montre qu'une injection cachée dans un fichier peut être stockée par un agent local puis exécutée plus tard — 95,5 % de réussite là où l'injection mono-tour frôle zéro.
DataShield : quand un fine-tuning anodin érode la sûreté d'un modèle
Un papier arXiv du 29 mai 2026 montre qu'affiner un LLM aligné sur des données inoffensives dégrade quand même sa sûreté, et propose DataShield pour repérer les échantillons en cause avant l'entraînement.
Langroid SQLChatAgent : de l'injection prompt-vers-SQL à la RCE (CVE-2026-25879)
Divulguée le 1er juin 2026, la CVE-2026-25879 (CVSS 9.8) permet à un agent SQL victime d'injection de prompt d'exécuter des primitives comme COPY FROM PROGRAM, transformant un chatbot en exécution de code sur l'hôte de la base.
Il a suffi de demander : l'assistant IA de Meta et les prises de contrôle Instagram
Le week-end des 30–31 mai 2026, des attaquants ont pris le contrôle de comptes Instagram en vue en demandant simplement au bot de support IA de Meta de relier une nouvelle adresse e-mail. Aucune injection de prompt — juste une agentivité excessive.
Agents fragiles : l'injection indirecte survit aux appels d'outils multi-étapes
Un papier du 4 avril 2026 teste 6 défenses contre 4 vecteurs d'injection indirecte sur 9 modèles, en agent multi-étapes — les injections avancées les contournent presque toutes, et certaines mitigations de surface se retournent contre la défense.
Arrêtez de fixer le prompt : détourner le raisonnement et la mémoire d'un agent
Un papier d'avril 2026, JailAgent, pousse un agent à des appels d'outils malveillants sans toucher au prompt utilisateur — en perturbant sa trajectoire de raisonnement et sa récupération mémoire. Le prompt n'a jamais été toute la surface d'attaque.
Trojan Hippo : des charges dormantes dans la mémoire d'un agent exfiltrent vos données
Un papier arXiv du 3 mai 2026 montre qu'un seul e-mail piégé suffit à implanter dans la mémoire d'un agent une charge dormante qui ne s'active que lorsque vous parlez de finance ou de santé — puis exfiltre ces données, jusqu'à 100 % de réussite.
Cessez d'évaluer les défenses anti-jailbreak au seul taux de réussite
Un papier IEEE S&P de mai 2026 soutient que le taux de réussite d'attaque — la métrique par défaut du domaine — masque le comportement réel des défenses anti-jailbreak. Son Security Cube les évalue sur plusieurs axes à la fois.
LASM : une carte en 7 couches des angles morts de la défense des agents
Une étude de 58 pages révisée le 6 mai 2026 réorganise la sécurité des agents IA par couche et par échelle de temps, sur 116 papers. La carte révèle où les attaques sont documentées mais où défenses et benchmarks n'existent tout simplement pas encore.
Sampling MCP : comment un serveur malveillant abuse du canal LLM inversé
La fonction de sampling de MCP permet à un serveur de demander une complétion au modèle du client. Unit 42 a montré (déc. 2025) comment un serveur malveillant en fait un canal d'appels d'outils furtifs, de détournement de conversation et de vol de calcul.
IPI Arena : 272 000 attaques, aucun modèle d'agent épargné
L'Indirect Prompt Injection Arena de Gray Swan, jugée avec l'UK AISI et l'US CAISI, a lancé plus de 272 000 attaques contre 13 modèles de pointe. Tous ont été détournés — et un seul gabarit universel en a cassé neuf.
TrustFall : les réglages MCP du projet transforment le clic de confiance en RCE
TrustFall (Adversa AI, 7 mai 2026) montre que quatre CLI de codage agentiques démarrent automatiquement les serveurs MCP définis par le projet dès que le développeur accepte l'invite de confiance du dossier — un appui de touche sur le poste, zéro clic en CI.
LightLLM CVE-2026-26220 : du pickle sur un WebSocket que le serveur force sur le réseau
CVE-2026-26220 (divulguée le 15 février 2026) place pickle.loads() sur deux endpoints WebSocket non authentifiés du mode prefill-decode de LightLLM — et le serveur refuse de se lier à localhost, donc la surface est toujours distante.
Séparateurs dynamiques : durcir le Polymorphic Prompt Assembling contre l'injection
Un papier arXiv du 28 mai 2026 corrige une faille de « rayon d'impact » du Polymorphic Prompt Assembling en générant un séparateur SHA-256 unique par requête, faisant chuter le taux de succès d'un payload de 0,88 à 0,38.
Silent Egress : l'injection implicite fait fuiter vos données via les aperçus d'URL
Une étude eBay (arXiv, 25 février 2026) montre qu'un agent qui prévisualise automatiquement les URL peut être amené à exfiltrer son contexte d'exécution par appels d'outils — P(egress)≈0,89, et 95 % des fuites laissent la réponse visible parfaitement anodine.
L'agent aux commandes : détecter une post-exploitation pilotée par LLM
Le 10 mai 2026, Sysdig a capté sa première intrusion où un agent LLM pilotait la post-exploitation en temps réel — de CVE-2026-39987 sur marimo à un dump PostgreSQL complet en moins d'une heure. L'indice médico-légal est la forme des commandes.
Flowise CVE-2026-40933 : importer un chatflow partagé suffit pour une RCE
L'analyse d'Obsidian Security du 28 mai 2026 montre comment le nœud Custom MCP de Flowise transforme une config MCP stdio en exécution de code côté serveur — et comment le simple import d'un chatflow partagé peut la déclencher, sans sauvegarde ni exécution.
Prompt injection dans la nature : attaques cachées dans le tri de CV par LLM
Une étude USENIX Security 2026 portant sur 196 682 CV réels révèle qu'environ 1 % contiennent des injections de prompt cachées — et plus de 90 % sont des « injections de données » invisibles, pas les instructions explicites que cherchent les détecteurs actuels.
Red teaming agentique : un opérateur, 674 attaques en trois heures
Un papier de mai 2026 de Dreadnode emballe la boîte à outils du red team IA dans un agent qui choisit les attaques, les exécute et note les résultats tout seul — des semaines compressées en heures. Le vrai sujet : ce que ça change pour votre programme d'évaluation.
CrewAI : un repli silencieux du bac à sable transforme l'injection de prompt en RCE (VU#221883)
Quatre failles CrewAI permettent de chaîner injection de prompt, RCE, SSRF et lecture de fichiers via un Code Interpreter qui sort silencieusement de Docker. La mise à jour CERT/CC du 20 mai 2026 confirme le correctif complet.
Le triangle des compromis : défendre un tuteur LLM contre l'injection de prompt
Un benchmark de mai 2026 sur les défenses anti-injection pour tuteurs pédagogiques LLM chiffre une vérité gênante : aucun garde-fou ne gagne à la fois sur la robustesse, l'usabilité et la latence.
Les jailbreaks laissent une trace : les détecter dans les activations internes des LLM
Un article de février 2026 et son prolongement de mars 2026 montrent qu'un prompt de jailbreak grave une signature distinctive dans les activations cachées du modèle — permettant une détection à l'inférence, sans fine-tuning ni modèle juge auxiliaire.
Attaques par épuisement de tokens : déni de service économique via les chaînes d'outils des agents
Deux papers de 2026 montrent qu'un outil ou un skill malveillant peut entraîner un agent LLM dans de longues boucles d'appels d'outils, multipliant le coût en tokens par 6 à 658× tout en renvoyant la bonne réponse — une variante furtive de l'Unbounded Consumption de l'OWASP.
Attribution causale : une défense émergente contre l'injection indirecte
Un ensemble de papers début 2026 — CausalArmor et AttriGuard — défend les agents à outils en demandant quelles actions sont causalement provoquées par du contenu non fiable plutôt que par l'utilisateur. Tour d'horizon de la défense par attribution causale.
LITMUS : quand l'agent dit non mais que le fichier est déjà supprimé
Un benchmark du 11 mai 2026 mesure les jailbreaks comportementaux des agents LLM dans de vrais environnements OS — et constate que même Claude Sonnet 4.6 exécute 40,6 % des opérations à haut risque, parfois en les refusant verbalement.
Vol de prompt par le temps : canaux auxiliaires du cache de préfixe en LLM mutualisé
Le cache de préfixe partagé accélère les API LLM — et fuit les prompts. En chronométrant le premier token, un attaquant reconstitue le prompt d'un autre locataire. Un article de mars 2026 défend sans sacrifier la performance.
AgentSecBench : dans un agent LLM, le flux de données n'est pas l'autorité
Publié le 25 mai 2026, AgentSecBench formalise la sécurité des agents comme une non-interférence et teste six classes de défense. Le constat : le texte du prompt ne fait que décrire une frontière ; seules la provenance, la restriction de capacités et la validation de sortie l'imposent.
Zero-days écrits par IA : comment le GTIG a identifié le premier exploit bâti par un modèle
Le 11 mai 2026, le GTIG de Google a divulgué le premier zero-day qu'il estime conçu par IA — un script de contournement de 2FA trahi par un score CVSS halluciné et des docstrings de manuel. Voici comment lire ces indices.
SymJack : une copie de fichier approuvée devient RCE dans six agents de codage IA
Adversa AI a publié le 26 mai 2026 un schéma de détournement par lien symbolique qui transforme une simple commande shell en réécriture de la config et en RCE sur l'hôte, à travers Claude Code, Cursor, Gemini, Antigravity, Copilot, Grok Build et Codex CLI.
Slopsquatting en 2026 : 127 noms de paquets que les cinq LLM frontières hallucinent à l'identique
Une réplication arXiv du 16 mai 2026 de l'étude USENIX Security '25 sur le slopsquatting montre que les taux d'hallucination baissent sur les modèles frontières — mais identifie 127 paquets fantômes inventés à l'identique par tous les modèles testés, soit une surface d'attaque supply-chain agnostique du modèle.
Blindfold : des jailbreaks au niveau action contournent les défenses sémantiques des LLM embarqués
Un papier SenSys '26 (11–14 mai 2026) présente Blindfold, un framework automatisé qui jailbreake les LLM embarqués en décomposant un but malveillant en actions individuellement anodines — jusqu'à 53 % de gain d'attaque sur un bras robotique 6-DoF réel.
MCPwn (CVE-2026-33032) : un endpoint MCP de nginx-ui livre le serveur web
Un endpoint MCP non authentifié dans nginx-ui ≤ 2.3.3 permet à n'importe quel attaquant réseau de réécrire les configs nginx et de redémarrer le service. CVSS 9.8, divulgation publique le 15 avril 2026, exploitation en environnement réel observée quelques heures après le correctif.
Mesurer la capacité d'exploitation des LLM : ExploitBench, ExploitGym et SCONE-bench
Le 22 mai 2026, Anthropic a publié les résultats de Mythos Preview sur trois nouveaux benchmarks d'exploitation. Les chiffres — et la manière dont les benchmarks décomposent la chaîne d'exploit — changent la façon dont les défenseurs doivent penser la capacité offensive frontière.
Proprietary Problems : l'étude Cisco sur 15 modèles fermés montre que les scores de sûreté en un tour ratent l'essentiel du risque multi-tours
Une étude Cisco publiée le 27 mai 2026, portant sur 15 modèles phares fermés d'OpenAI, Anthropic, Google, Amazon et xAI, mesure des taux de succès d'attaque multi-tours allant de 7,89 % à 88,30 % — et des écarts pouvant atteindre 55 points par rapport au régime mono-tour.
Un million de services IA exposés : ce que le scan Intruder a réellement trouvé
Le 5 mai 2026, Intruder publiait les résultats d'un scan internet ayant cartographié un million de services IA exposés sur deux millions d'hôtes. Le défaut récurrent n'est pas exotique : ce sont les configurations par défaut permissives.
Le fossé sécurité agent-humain : ce que la production déploie, ce que la recherche étudie
Un papier UCLA du 23 mai 2026 audite 59 études académiques, 21 systèmes d'agents en production et 26 plugins de sécurité — et constate que les défenses préférées des chercheurs n'ont aucun déploiement en production.
La taxe d'autonomie : comment l'entraînement défensif casse les agents LLM
Un papier USC du 19 mars 2026 mesure le coût de l'entraînement anti-injection sur la compétence des agents — les modèles défendus expirent sur 99 % des tâches, contre 13 % pour la baseline.
MCP a besoin d'une poignée de main de confiance : l'admission attestée des serveurs d'outils
Un papier arXiv du 22 mai 2026 propose mcp-attested — une extension rétrocompatible de MCP qui conditionne tout dispatch d'outil à une attestation signée, à une allowlist deny-by-default et à un journal d'audit infalsifiable.
WARD : un modèle de garde co-évolué qui tient face aux injections de prompt adaptatives sur agents web
Un papier de la NUS daté du 14 mai 2026 propose WARD — un modèle de garde entraîné contre un attaquant adversarial à mémoire — et rapporte un rappel quasi parfait hors-distribution sur l'injection de prompt en agent web.
MemMorph : détournement des appels d'outils par empoisonnement fluide de la mémoire
Une publication arXiv du 24 mai 2026 (NTU Singapour) montre que trois entrées de mémoire d'apparence anodine suffisent à orienter un agent vers l'outil choisi par l'attaquant, avec 85,9 % de succès — et résistent à trois défenses standard.
SilentRetrieval : un empoisonnement de corpus RAG fluide qui passe les filtres de perplexité
Un préprint arXiv du 27 mai 2026 propose une attaque en deux temps qui cache des déclencheurs de détournement dans des documents fluides, atteignant 57 % de succès LLM sur Natural Questions et MS MARCO avec un seul document empoisonné par requête.
CISA + Five Eyes publient le premier guide commun sur l'adoption des IA agentiques
Le 1er mai 2026, CISA, NSA et les agences cyber des Five Eyes ont publié 'Careful Adoption of Agentic AI Services' — une taxonomie en 5 risques et un manuel de déploiement que les opérateurs d'infrastructures critiques sont désormais censés intégrer à leurs cadres de cybersécurité existants.
Microsoft Copilot Cowork : des skills piégées exfiltrent les fichiers M365 sans approbation
Publication PromptArmor du 26 mai 2026 : cinq lignes d'injection de prompt dans une skill Copilot Cowork suffisent à exfiltrer des documents SharePoint et OneDrive via des messages Teams auto-approuvés.
CrossMPI : une injection de prompt par image seule pilote ce que lisent et voient les VLM
Un papier de l'Université de Xidian publié sur arXiv le 15 mai 2026 introduit CrossMPI : des perturbations d'image imperceptibles modifient la façon dont les modèles vision-langage interprètent à la fois l'image et la requête textuelle de l'utilisateur, avec 66 % de réussite moyenne sur cinq LVLM.
IterInject : quand un LLM optimise lui-même ses injections de prompt indirectes
Un papier du 23 mai 2026 boucle la chaîne payload / diagnostiqueur / optimiseur LLM — l'ASR d'injection indirecte passe de quasi-zéro à 33–90 % sur InjecAgent, et 5 cibles sur 9 sont compromises sur Claude Code.
La NSA AISC publie un guide de sécurité MCP pour les déploiements IA
Le 20 mai 2026, l'Artificial Intelligence Security Center de la NSA a publié une fiche d'information de 15 pages sur le Model Context Protocol : huit classes de faiblesses, cinq incidents réels, neuf recommandations défensives.
pgAdmin 4 ajoute un panneau LLM et hérite d'un LFI+SSRF classique (CVE-2026-7817)
pgAdmin 4 9.15 corrige un LFI et un SSRF authentifiés dans les nouveaux points d'API LLM. La classe de bug a quarante ans, la surface est toute neuve.
Empoisonner la tour de garde : quand les copilotes SOC lisent des logs contrôlés par l'attaquant
Un papier du 23 mai 2026 formalise l'injection de prompt par substrat de logs — du contenu adverse glissé dans les champs de logs pour piloter les assistants LLM des SOC. La meilleure défense laisse passer 11,8 % d'injections en moyenne.
Contamination temporelle de la mémoire : dérive longitudinale de sûreté chez les agents LLM
Trois preprints arXiv d'avril et mai 2026 convergent sur un mode de défaillance complémentaire de l'empoisonnement de mémoire — les agents équipés de mémoire dérivent vers l'unsafe au fil de l'accumulation de contexte bénin, les résumés compressés agissant comme un canal de blanchiment.
La pression : les équipes sécurité de l'open source face au déluge de vulnérabilités assistées par IA
Le 26 mai 2026, Daniel Stenberg (curl) publie « The pressure » : plus d'un rapport de sécurité crédible par jour, douze CVE confirmées à mi-cycle, un schéma désormais confirmé par d'autres mainteneurs.
Le harnais de l'agent est votre vrai périmètre de privilège — et la plupart des équipes le placent au mauvais endroit
Une analyse de Pillar Security publiée le 26 mai 2026 démontre que le harnais — Claude Code, Cursor, Codex — détient les secrets, outils et hooks que l'agent ne voit jamais. Des bugs récents de harnais et la CVE-2026-22708 rendent la démonstration concrète.
Sockpuppeting : un préfixe d'une ligne qui jailbreak 11 LLM en production
Une seule ligne injectée comme dernier message « assistant » incite 7 modèles majeurs sur 10 à générer du contenu nuisible. Le correctif n'est pas dans le modèle — c'est une validation d'ordre des messages côté API.
GrafanaGhost : injection indirecte de prompt et bug de parsing d'URL pour exfiltrer les données des tableaux de bord
La divulgation du 7 avril 2026 par Noma Security montre comment trois défauts modestes — un point d'injection stocké, un contrôle startsWith('/') et un bypass de garde-fou en un mot — se combinent en un canal d'exfiltration silencieux via l'assistant IA de Grafana.
Les réseaux d'agents cassent autrement : le red-team de Microsoft, et RAMPART et Clarity
Microsoft Research a red-teamé une plateforme interne de 100+ agents toujours actifs. Quatre schémas d'attaque — propagation, amplification, capture de confiance, chaînes de proxy — n'apparaissent qu'au niveau du réseau. RAMPART et Clarity, open-sourcés le 20 mai 2026, sont la réponse.
Antigravity find_by_name : quand un appel d'outil natif saute par-dessus le Secure Mode
Le 20 avril 2026, Pillar Security a divulgué qu'un seul paramètre non assaini de l'outil find_by_name de Google Antigravity transformait une recherche de fichier en exécution de code arbitraire — en contournant le sandbox le plus strict de l'IDE.
Apple crédite officiellement Claude sur deux CVE macOS dans son bulletin de mai 2026
Le 11 mai 2026, l'avis de sécurité Apple pour macOS Tahoe 26.5 cite Claude aux côtés de ses chercheurs sur deux CVE — un dépassement d'entier dans le kernel et un use-after-free WebKit. La recherche de vulnérabilités assistée par IA entre dans le changelog officiel.
BadHost (CVE-2026-48710) : un caractère dans l'en-tête Host suffit à contourner l'auth dans Starlette, vLLM et FastMCP
X41 D-Sec a divulgué le 22 mai 2026 un contournement d'authentification critique dans Starlette < 1.0.1. Un seul / ? ou # dans l'en-tête HTTP Host désynchronise le chemin routé du chemin vu par le middleware, cassant l'autorisation par chemin dans vLLM, LiteLLM, FastMCP et des milliers d'agents IA construits sur FastAPI.
Bleeding Llama : une faille de parsing GGUF expose la mémoire d'Ollama à des attaquants non authentifiés
Divulguée publiquement en mai 2026 et baptisée Bleeding Llama par Cyera, la CVE-2026-7482 permet à un attaquant distant d'extraire des fragments arbitraires du tas d'un serveur Ollama — clés d'API, system prompts, conversations d'autres utilisateurs — en trois appels d'API non authentifiés. Le patch silencieux a été publié 2,5 mois avant l'attribution de la CVE.
ClaudeBleed : quand un agent navigateur fait confiance à la mauvaise extension
LayerX a divulgué ClaudeBleed le 6 mai 2026 : une faille de frontière de confiance permettait à n'importe quelle extension Chrome de piloter Claude in Chrome et d'exfiltrer des données Gmail, Drive et GitHub. Le premier correctif a été contourné en quelques heures.
Injection de prompt encodée : quand les garde-fous échouent parce que le LLM décode le payload
Le 4 mai 2026, un tweet rédigé en code Morse a vidé environ 175 000 $ d'un portefeuille crypto piloté par Grok. L'incident est la démonstration la plus coûteuse à ce jour d'un angle mort défensif déjà connu — un filtre par appariement de chaînes ne voit pas à travers les encodages que le modèle lui-même décode volontiers.
La première vague de CVE : la découverte assistée par IA redessine le volume des divulgations
L'analyse VulnCheck du 14 mai 2026 montre une hausse YTD de +563 % sur Chrome, +476 % sur GitHub, +180 % sur VMware, +170 % sur Apache. Le basculement systémique derrière les manchettes Apple, Mozilla et ActiveMQ est désormais lisible dans les chiffres.
Injection par font-mapping : le peer review devient une surface d'attaque LLM
Un benchmark arXiv du 25 mai 2026 montre que des payloads dissimulés par font-mapping font passer des reviews LLM de reject à accept. ICML 2026 a déjà utilisé la même technique en miroir pour rejeter 497 articles.
Transport STDIO de MCP : le choix de conception devenu 11 CVE et 200 000 agents exposés
Le 16 avril 2026, OX Security a révélé que le transport STDIO de MCP, signé Anthropic, exécute toute commande qu'on lui passe. Anthropic parle d'un comportement « voulu ». La cascade a produit onze CVE en six semaines.
MultiBreak : 10 389 prompts multi-tours révèlent comment les jailbreaks conversationnels percent l'alignement des LLM
Un papier publié à ICML 2026 le 3 mai dernier dévoile le benchmark multi-tours le plus large et le plus diversifié à ce jour. Il enregistre des écarts de taux de succès d'attaque allant jusqu'à 54 points sur DeepSeek-R1-7B et 34,6 sur GPT-4.1-mini par rapport à l'état de l'art précédent, et quantifie comment un alignement qui tient en un tour s'effondre sur plusieurs.
Quand le prompt devient un shell : de l'injection au RCE dans les frameworks d'agents
Deux CVE dans Microsoft Semantic Kernel et quatre dans CrewAI — toutes divulguées début 2026 — transforment un simple prompt injecté en exécution de code à distance sur l'hôte. Le motif est structurel, pas accidentel.
Teaching Claude Why : comment Anthropic a fait passer la mésalignement agentique à zéro
Le 8 mai 2026, l'équipe Alignment Science d'Anthropic a publié une étude de cas montrant qu'apprendre à Claude à expliquer son raisonnement éthique — et non simplement à le démontrer — réduit la mésalignement agentique de 96 % à moins de 1 %.
Sécuriser les agents IA comme des systèmes d'exploitation : la cartographie du CISPA
Un papier du CISPA publié le 14 mai 2026 transpose plusieurs décennies de sécurité des OS aux agents LLM. Testé sur quatre agents de type OpenClaw, deux familles de faiblesses — exfiltration inter-utilisateurs et sortie réseau non autorisée — échouent sur tous les systèmes.
Attaque ICS assistée par IA : leçons de l'intrusion contre le service des eaux de Monterrey
Le rapport publié par Dragos en mai 2026 sur Servicios de Agua y Drenaje de Monterrey documente la première campagne analysée publiquement où un LLM commercial — Claude — a été l'opérateur technique principal d'une tentative d'intrusion OT.
Empoisonner une fois, exploiter pour toujours : poisoning persistant de la mémoire des agents LLM (OWASP ASI06)
Un papier arXiv d'avril 2026 sur le memory poisoning inter-sites et un post OWASP du 13 mai 2026 sur la découverte MemoryTrap de Cisco contre Claude Code convergent vers le même constat : la mémoire d'agent est une frontière de confiance.
AudioHijack : du son imperceptible détourne les agents vocaux (IEEE S&P 2026)
Un papier IEEE S&P du 16 avril 2026 introduit l'injection de prompt auditive : une réverbération adverse cachée dans l'audio pousse 13 modèles audio-langage et les agents vocaux commerciaux (Mistral AI, Microsoft Azure) à exécuter des actions non autorisées avec 79 à 96 % de réussite.
XSS Discourse AI (CVE-2026-27740) : quand la sortie d'un LLM est traitée comme du HTML de confiance
Un message signalé, un modérateur IA, un appel à htmlSafe. Le plugin Discourse AI traitait la sortie LLM comme du markup de confiance, transformant une prompt injection indirecte en XSS côté staff. Publié le 19 mars 2026.
Le Triangle Mortel : quand un agent lit des données privées, du contenu non fiable, et peut appeler dehors
Le cadre de Simon Willison pour la faute architecturale qui a transformé la vague d'exfiltrations d'agents IA de 2026 en classe de vulnérabilité, et non en coïncidence.
Vulnérabilités back-end MCP : les failles classiques refont surface dans les passerelles IA-bases de données
La recherche d'Akamai du 12 mai 2026 documente une injection SQL (CVE-2025-66335), une authentification manquante et des entrées non assainies dans trois serveurs MCP — Apache Doris, Apache Pinot et Alibaba RDS. Le motif, plus que les bugs, est l'enseignement.
OpenAI Daybreak et GPT-5.5-Cyber : un modèle de sécurité permissif derrière un sas d'identité vérifiée
Entre le 7 et le 12 mai 2026, OpenAI a lancé Daybreak — une plateforme de cybersécurité reposant sur GPT-5.5, Codex Security et un cousin « cyber-permissif », GPT-5.5-Cyber. Le red team de l'UK AISI avait trouvé un jailbreak universel en six heures.
Project Glasswing : 10 000+ bugs critiques trouvés par Claude Mythos en un mois
Le bilan publié par Anthropic le 26 mai 2026 indique que près de 50 partenaires de Project Glasswing ont utilisé Claude Mythos Preview pour identifier plus de 10 000 vulnérabilités de sévérité élevée ou critique, dont 271 bugs latents corrigés dans Firefox 150.
Semantic Kernel : quand un prompt devient un shell (CVE-2026-25592, CVE-2026-26030)
Microsoft a divulgué le 7 mai 2026 deux vulnérabilités critiques dans Semantic Kernel qui transforment un simple prompt injecté en exécution de code sur l'hôte. La cause racine est architecturale : registre d'outils et eval() traités comme des commodités, pas comme des frontières de sécurité.
Déclencheurs cachés dans SKILL.md : attaques sémantiques sur les registres de skills d'agents
Un papier de l'Université du Maryland publié le 12 mai 2026 montre qu'un ajout de 20 tokens dans un fichier SKILL.md fait découvrir et sélectionner une skill malveillante par l'agent dans 77 à 86 % des essais, et contourne les scans du registre jusqu'à 100 % du temps.
Trust No Tool : empoisonnement cognitif des agents LLM via les retours d'outils
Un article arXiv du 17 mai 2026 introduit l'« empoisonnement cognitif » : un outil malveillant gagne la confiance de l'agent au fil de tours anodins et n'arme que l'action finale. La cible de défense passe du prompt à la trajectoire.
Usability as a Weapon : quand une demande d'amélioration rend le code généré vulnérable
Un paper arXiv du 11 mai 2026 montre que demander à un LLM de coder « plus vite », « plus simple » ou avec « une fonctionnalité de plus » fait silencieusement disparaître les protections. UPAttack atteint 98,1 % sur GPT-5.2-chat et Gemini-3.
Agents Rule of Two : la réponse pragmatique de Meta au prompt injection
Publiée le 31 octobre 2025 par Meta et reprise dans le guide Databricks de mai 2026, l'Agents Rule of Two limite une session d'agent à deux des trois propriétés à risque — le cadre le plus actionnable tant que le prompt injection reste sans solution.
CVE-2026-35435 : les agents M365 publiés depuis Azure AI Foundry faisaient confiance à des appelants qu'ils auraient dû refuser
Divulguée le 7 mai 2026 (CVSS 8.6), une faille de contrôle d'accès dans Azure AI Foundry permet à des attaquants non autorisés d'élever leurs privilèges via les agents M365 publiés. Microsoft signale une exploitation active ; des mesures de mitigation existent avant le correctif.
Azure SRE Agent : un contrôle de token multi-tenant qui laissait des inconnus écouter vos incidents (CVE-2026-32173)
Divulguée le 20 avril 2026, une mauvaise configuration d'app registration Entra ID sur le WebSocket /agentHub d'Azure SRE Agent permettait à n'importe quel tenant de se connecter et d'écouter chaque prompt, chaque raisonnement, chaque commande CLI et chaque identifiant — silencieusement.
Claw Chain : quatre CVE OpenClaw qui transforment l'agent IA en main de l'attaquant
Divulguées le 15 mai 2026, les failles Claw Chain de Cyera Research chaînent quatre vulnérabilités OpenClaw — évasion de sandbox, fuite de variables d'environnement, élévation de privilèges MCP, lecture par symlink — en prise de contrôle complète de l'hôte via l'agent.
Comment and Control : un même schéma d'injection de prompt, trois agents qui fuitent les secrets GitHub Actions
Divulguée le 15 avril 2026, l'attaque Comment and Control transforme un titre de PR, un commentaire d'issue ou un commentaire HTML en canal d'exfiltration de secrets dans Claude Code, Gemini CLI et GitHub Copilot Agent.
Intégrité contextuelle : pourquoi les défenses contre l'injection de prompt échouent
Un papier de mai 2026 d'Abdelnabi et Bagdasarian relit l'injection de prompt à travers l'Intégrité Contextuelle et montre que séparer données et instructions est une erreur de catégorie.
Copirate 365 : chaîner injection de prompt, invocation différée d'outils et empoisonnement de mémoire dans M365 Copilot (CVE-2026-24299)
Le compte-rendu DEF CON de Johann Rehberger, publié en mai 2026, déroule une chaîne d'injection indirecte en cinq étapes qui transforme un courriel piégé en backdoor persistante dans Microsoft 365 Copilot. Patchée, mais les patterns sont génériques.
Injection indirecte de prompt : trois études d'avril 2026 convergent
Google, Forcepoint et le CISPA ont mesuré indépendamment l'injection indirecte de prompt sur le web ouvert en avril 2026. Bilan : plus de 15 000 payloads validés, +32 % de croissance, modèles industrialisés.
LiteLLM CVE-2026-42208 : une injection SQL pré-authentifiée dans la passerelle IA
Divulguée le 20 avril 2026 et exploitée 36 heures après l'indexation de l'avis mondial, CVE-2026-42208 transforme l'en-tête Authorization de LiteLLM en lecture directe sur toutes les clés fournisseur que la passerelle fronte.
Quand l'attaquant est un autre LLM : les grands modèles de raisonnement en jailbreakers autonomes
Un papier Nature Communications formalisé en mai 2026 montre que quatre modèles de raisonnement — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini et Qwen3 235B — jailbreakent neuf LLM cibles avec un taux de succès global de 97,14 %, à partir d'un simple prompt système.
Jailbreaks par encodage mathématique : quand la théorie des ensembles contourne l'alignement
Un papier arXiv publié le 5 mai 2026 montre que reformuler une requête nuisible en problème de théorie des ensembles ou de logique formelle contourne l'alignement de 46 à 56 % du temps sur huit modèles de pointe — mais seulement si un LLM auxiliaire fait la reformulation.
PraisonAI CVE-2026-44338 : un serveur d'agents sans authentification, exploité en 3h44
Divulguée le 11 mai 2026, CVE-2026-44338 livre PraisonAI avec l'authentification désactivée en dur dans son ancien serveur API. Un scanner CVE-Detector a sondé l'endpoint moins de quatre heures plus tard.
ShareLeak (CVE-2026-21520) : le premier CVE assigné par Microsoft à une injection de prompt Copilot
Divulgué le 15 avril 2026, le write-up ShareLeak de Capsule Security décrit une injection indirecte de prompt dans Microsoft Copilot Studio. Microsoft a assigné CVE-2026-21520 (CVSS 7.5) — une première qui requalifie la prompt injection en classe de vulnérabilité suivie.
ARGUS : une défense par graphe de provenance contre l'injection de prompt contextuelle
Publié le 5 mai 2026, l'article ARGUS introduit un audit par graphe d'influence pour les agents LLM — le taux de réussite des attaques chute de 28,8 % à 3,8 % sur un nouveau benchmark.
Hiérarchie des instructions : entraîner les LLM à prioriser les ordres privilégiés
Le papier OpenAI de 2024 propose une défense structurelle contre l'injection de prompt : apprendre au modèle que système > utilisateur > sortie d'outil. L'idée est désormais centrale dans l'entraînement de GPT-4o-mini et de la série o.
LMDeploy SSRF : quand un chargeur d'images détourne l'infrastructure IA
CVE-2026-33626 transforme la fonction load_image() de LMDeploy en primitive SSRF générique. Premier exploit observé en 12 heures et 31 minutes après publication de l'avis.
Détournement d'agent en local : attaques WebSocket cross-origin sur les agents de code IA
La CVE-2026-44211 (CVSS 9.7), divulguée le 7 mai 2026, montre comment la simple visite d'une page malveillante peut détourner un agent de code IA installé sur le poste d'un développeur. La classe d'attaque est générique — et architecturale.
Mini Shai-Hulud : le ver supply-chain qui s'en est pris à l'écosystème IA
Divulgué du 11 au 18 mai 2026, le ver Mini Shai-Hulud a trojanisé plus de 170 paquets npm et PyPI — dont Mistral AI, Guardrails AI et TanStack — et installe une persistance dans Claude Code et VS Code.
Le filtrage de sortie bat l'auto-défense du modèle : 20 000 attaques adaptatives, un seul survivant
Posté le 26 avril et révisé le 12 mai 2026, un papier Swept AI / Michigan a opposé neuf défenses contre l'injection de prompt à un attaquant adaptatif. Toutes les défenses côté modèle ont fini par tomber. Seul le filtrage de sortie applicatif a tenu — zéro fuite sur 15 000 attaques.
Prompts-shells : quand l'injection de prompt devient RCE dans les frameworks d'agents
Deux CVE divulguées dans Microsoft Semantic Kernel le 7 mai 2026 (CVE-2026-25592, CVE-2026-26030) montrent comment un prompt injecté peut basculer du texte à l'exécution de code à distance sur l'hôte de l'agent.
ASCII Smuggling : commandes cachées via les caractères Unicode Tag
Les caractères Unicode Tag (U+E0000–U+E007F) sont invisibles pour les humains mais interprétés par les LLM. Les attaquants les intègrent dans des emails, pages web et PDF pour injecter des commandes silencieuses qui détournent le comportement des agents.
Many-shot jailbreaking : 256 exemples pour contourner n'importe quel alignement
Les chercheurs d'Anthropic ont montré qu'en remplissant la fenêtre de contexte avec 256 faux exemples de Q&R, on contourne l'entraînement de sécurité. Plus de contexte = plus de surface d'attaque.
Extraction de system prompt via attaques par répétition
Demander au modèle de 'répéter le mot poème à l'infini' le fait éventuellement vomir des données d'entraînement et des system prompts. Documenté sur Claude 3, GPT-4 et Gemini.
Sleeper agents : backdoors cachées qui survivent à l'entraînement de sécurité
Anthropic a démontré que des modèles entraînés avec des phrases-déclencheurs cachées conservent leur comportement backdoor même après l'entraînement de sécurité RLHF standard. Les implications pour les LLM en open-weight sont significatives.