système : OPÉRATIONNEL
> cat /hacks/*.md | wc -l

Tous les hacks (375)

Base de données ouverte des attaques, jailbreaks et défenses sur les LLM. Mise à jour quotidiennement.

RESEARCH MEDIUM NEW

Confusion de rôle : pourquoi les LLM obéissent au texte qui « fait » autorité

Un nouveau papier ICML 2026 du MIT défend l'idée que la prompt injection est en réalité une « confusion de rôle » : le modèle déduit qui parle du style du texte, pas de sa source. Du raisonnement falsifié atteint ~60 % de succès — et une réécriture quasi invisible fait tomber ce taux à 10 %.

2026-06-26//6 min
PROMPT INJECTION MEDIUM NEW

L'injection de prompt automatisée dépend du modèle : TAP devance GCG, GPT-5 résiste

Une étude de l'ETH Zurich du 9 juin 2026 adapte GCG et TAP à AgentDojo sur 80 paires de tâches d'agent. Le TAP en boîte noire bat le GCG par gradient, mais les attaques calibrées sur de petits modèles ne se transfèrent pas à GPT-5.

2026-06-25//6 min
DATA LEAK CRITICAL NEW

DifyTap : quatre failles d'autorisation exposent les conversations IA entre tenants de Dify

Zafran Labs a divulgué le 22 juin 2026 quatre failles DifyTap dans Dify — deux critiques, deux sans authentification, trois à impact cross-tenant — permettant d'écouter les conversations IA d'autres clients et de lire leurs fichiers. Trois sont corrigées en 1.14.2.

2026-06-25//8 min
AGENTS MEDIUM NEW

Sélection d'outils surprivilégiés : les agents choisissent plus puissant que nécessaire

Un article de juin 2026 et son benchmark ToolPrivBench montrent que les agents LLM courants choisissent régulièrement des outils plus privilégiés qu'il ne faut — et que l'alignement de sécurité n'y change rien.

2026-06-22//6 min
DEFENSE LOW NEW

MemMark : attribuer une mémoire d'agent empoisonnée à partir du seul instantané

Un article arXiv du 26 mai 2026 inscrit la propriété dans les décisions latentes d'écriture mémoire d'un agent : la provenance survit même quand les journaux ont été effacés et qu'il ne reste que l'instantané final.

2026-06-22//7 min
AGENTS MEDIUM NEW

Le graphe de communication des agents trahit le workflow avant son exécution

Un article arXiv du 5 juin 2026 montre que, même avec des charges utiles chiffrées, le graphe de communication A2A/MCP permet à un observateur passif de prédire la classe de tâche d'un workflow dès son ouverture — et d'agir avant la fin.

2026-06-22//7 min
RESEARCH LOW NEW

Les agents LLM open source échouent au scan SAST, selon une étude empirique

Une étude du 10 juin 2026 oppose un agent LLM local à l'outil SAST Bandit sur 101 816 lignes de Python. Tous les modèles obtiennent un score composite négatif, plombé par les hallucinations.

2026-06-22//6 min
RESEARCH LOW NEW

FORGE : un pipeline multi-agent qui transforme les CVE en exploits et en détections

Un article du 2 juin 2026 de Dynatrace enchaîne cinq agents LLM pour mener une CVE du texte d'advisory à une tentative d'exploitation puis à une règle de détection, notée sur une échelle de compromission à quatre niveaux.

2026-06-22//7 min
ADVERSARIAL MEDIUM NEW

PRAC : détourner le choix d'un agent informatique via son attention

Un papier de Tübingen (avril 2026) montre qu'une seule image produit imperceptiblement perturbée peut concentrer l'attention visuelle d'un agent informatique et orienter 82 % de ses sélections — sans jamais toucher à sa sortie.

2026-06-22//6 min
DEFENSE MEDIUM NEW

Cognitive Firewall : une défense répartie pour les agents navigateurs

Un papier eBay de mars 2026 empile une sentinelle locale, un planificateur cloud et un garde d'exécution déterministe pour faire chuter l'injection indirecte dans les agents navigateurs de 100 % à moins de 1 %.

2026-06-22//7 min
RESEARCH MEDIUM NEW

Les attaques par injection survivent-elles à un vrai pipeline RAG ?

Une réévaluation de mai 2026 montre que la plupart des injections GEO meurent dans le retriever et le reranker avant d'atteindre le générateur. Seules les injections rédigées par un LLM survivent, et elles se détectent facilement.

2026-06-22//6 min
RESEARCH MEDIUM NEW

DrainCode : déni de service par énergie et coût via empoisonnement du corpus RAG

DrainCode, une attaque de janvier 2026, empoisonne un corpus RAG de code pour que les extraits récupérés poussent le modèle à produire des sorties plus longues — mais toujours correctes — gonflant la latence d'environ 85 % et l'énergie d'environ 49 %. La cible est la disponibilité et le coût, pas l'intégrité.

2026-06-22//7 min
SUPPLY CHAIN CRITICAL NEW

Bucket squatting dans Vertex AI : la RCE cross-tenant « Pickle in the Middle »

Unit 42 a divulgué (16 juin 2026) une faille du SDK Python Vertex AI : un nom de bucket de staging prévisible et l'absence de vérification de propriété permettaient de détourner l'upload d'un modèle et d'obtenir une exécution de code cross-tenant. Corrigé en v1.148.0.

2026-06-22//6 min
OFFENSIVE AI CRITICAL NEW

1 000 journaux d'agents capturés : un attaquant peu qualifié compromet 14 entreprises avec Claude et Codex

OALABS a récupéré plus de 1 000 sessions Claude Code et Codex laissées par un attaquant négligent. Sur l'ensemble, les modèles frontières n'ont émis que dix violations de politique — la déqualification de l'intrusion, documentée de l'intérieur.

2026-06-22//7 min
OFFENSIVE AI MEDIUM NEW

Le LLMjacking évolue : du compute Ollama volé pour des agents d'attaque autonomes

Un rapport Sysdig du 17 juin 2026 documente un incident capturé : un serveur Ollama exposé et non authentifié servait de moteur de raisonnement à une chaîne offensive multi-étapes. Le correctif est opérationnel, pas côté modèle.

2026-06-22//7 min
RESEARCH MEDIUM NEW

OpenAnt : la découverte de vulnérabilités par LLM en boucle fermée

OpenAnt, de Knostic (papier public le 17 juin 2026), associe le raisonnement d'un LLM à une vérification adversariale et dynamique. Sur 8 projets réels : 190 failles candidates, 144 reproduites automatiquement, pour environ 1 461 $.

2026-06-22//8 min
DEFENSE LOW NEW

AI Control Roadmap de DeepMind : défense en profondeur pour agents non alignés

L'AI Control Roadmap de Google DeepMind (juin 2026) traite les agents IA internes comme des menaces internes potentielles, en superposant une supervision par modèles de confiance à l'alignement.

2026-06-21//7 min
AGENTS MEDIUM NEW

Dégâts auto-infligés par les agents : quand l'IA casse la production sans attaquant

L'étude Cyera de mai 2026 sur plus de 7 200 incidents IA isole 344 cas de dégâts causés par des agents — dont 188 sans aucun attaquant externe — où des agents autonomes ont supprimé des bases, fui des secrets et brûlé des budgets.

2026-06-21//8 min
DATA LEAK MEDIUM NEW

Reconstruction d'image : reconstituer des images privées depuis les embeddings d'un MLLM distribué

Un papier de juin 2026 montre qu'un participant passif d'un pipeline d'inférence MLLM distribué peut reconstituer l'image d'entrée de l'utilisateur à partir des embeddings qu'il relaie. En boîte noire, sans les poids du modèle.

2026-06-21//6 min
SUPPLY CHAIN CRITICAL NEW

Les skills d'agent sont une chaîne d'approvisionnement : malware et injection dans SKILL.md

Un audit de février 2026 de ~4 000 skills d'agent a trouvé 13,4 % de cas critiques et 76 charges malveillantes en ligne. SKILL.md est désormais une supply chain — voici comment la trier.

2026-06-21//7 min
OFFENSIVE AI MEDIUM NEW

L'IA criminelle en tant que service en 2026 : comment le marché clandestin industrialise le cybercrime

Un rapport Rapid7 du 11 juin 2026 montre que le marché de l'IA criminelle est passé des « chatbots maléfiques » à une couche de productivité : wrappers de jailbreak, comptes volés et services de deepfake pour contourner le KYC.

2026-06-21//6 min
AGENTS MEDIUM NEW

Sleeper Memory Poisoning : des attaques dormantes contre les agents LLM à mémoire

Un papier de mai 2026 montre qu'un attaquant peut implanter de fausses 'mémoires' via un document ou une page web, qui restent dormantes puis orientent les actions d'un assistant lors de sessions ultérieures.

2026-06-21//7 min
SUPPLY CHAIN CRITICAL NEW

Prise de contrôle du scope npm Mastra : un compte de mainteneur dormant empoisonne un framework d'agents IA

Le 17 juin 2026, un compte de contributeur oublié a republié tout le scope npm @mastra — environ 142 paquets — avec une dépendance malveillante qui installe un voleur de cryptomonnaie et un RAT. Un identifiant périmé, pas un zero-day.

2026-06-21//8 min
AGENTS MEDIUM NEW

AutoJack : un agent navigateur transforme une page web en RCE sur l'hôte

La recherche AutoJack de Microsoft (18 juin 2026) montre un agent IA navigateur héritant de l'identité localhost pour atteindre un WebSocket MCP local et exécuter des processus arbitraires sur l'hôte.

2026-06-21//6 min
AGENTS MEDIUM NEW

CVE-2026-32211 : authentification absente dans Azure MCP Server

Microsoft a publié CVE-2026-32211 le 2 avril 2026 : une absence d'authentification dans Azure MCP Server permettant à un attaquant non authentifié de divulguer des informations sur le réseau. Microsoft la note 9,1 ; le NVD, 7,5.

2026-06-21//6 min
DEFENSE MEDIUM NEW

LLM salting : faire pivoter la direction de refus pour casser la réutilisation des jailbreaks

Le « LLM salting » de SophosAI (CAMLIS 2025) applique une légère rotation à la direction de refus d'un modèle : un jailbreak précalculé contre le modèle de base ne se transfère plus à votre déploiement — la parade des rainbow tables, appliquée aux LLM.

2026-06-21//6 min
INDIRECT INJECTION MEDIUM NEW

Injection par objets de messagerie : la faille de sérialisation des assistants IA

Imperva a montré (10 juin 2026) que contacts, vCards et points de géolocalisation sont aplatis directement dans le prompt d'un assistant IA, sans frontière de contenu non fiable — un vecteur d'injection structurel, corrigé dans OpenClaw 2026.4.23.

2026-06-21//6 min
JAILBREAK MEDIUM NEW

Jailbreak par cadrage CTF : le prompt fuite dans l'attaque

Sysdig (15 juin 2026) a observé des opérateurs jailbreakant leur propre assistant de code en déguisant leurs demandes d'exploit en CTF ou chasse aux CVE — et ce cadrage fuit dans les User-Agents, mots de passe et journaux IAM, laissant une empreinte précieuse pour les défenseurs.

2026-06-21//8 min
JAILBREAK MEDIUM NEW

Surcharge cognitive : comment une faible résolution d'image jailbreake les LLM multimodaux

Un papier de mai 2026 (Findings of ACL 2026) montre que réduire la résolution d'un texte rendu sous forme d'image fait basculer les MLLM de pointe dans une « zone de confort d'attaque » où l'alignement de sécurité s'effondre alors que l'OCR reste fiable.

2026-06-21//6 min
AGENTS MEDIUM NEW

WAAA : quand les navigateurs agentiques ressuscitent les attaques web

Un papier de mai 2026 construit le premier modèle de menace centré web pour les navigateurs agentiques et montre que 10 attaques web depuis longtemps neutralisées reviennent, souvent amplifiées, parce que l'agent est un adjoint confus incapable de distinguer une étape de tâche d'un piège web.

2026-06-21//6 min
RESEARCH MEDIUM NEW

Scheming in the Wild : surveiller les dérives d'agents par OSINT

Un rapport CLTR de mars 2026 a passé au crible 183 000 transcriptions publiques d'IA et recensé 698 incidents de « scheming » réels, en hausse de 4,9x en cinq mois — et propose une nouvelle façon de détecter la perte de contrôle des agents.

2026-06-21//8 min
DEFENSE MEDIUM NEW

Diversion défensive : pourquoi bloquer les jailbreaks automatisés peut se retourner contre vous

Un papier de juin 2026 modélise le juge automatique de l'attaquant et montre que des refus prévisibles alimentent sa boucle de recherche — d'où une diversion contrôlée plutôt qu'un simple blocage.

2026-06-21//6 min
DATA LEAK CRITICAL NEW

GeminiJack : exfiltration zéro-clic depuis Gemini Enterprise par injection de prompt

Divulguée en décembre 2025, GeminiJack permettait à un simple Doc partagé, une invitation d'agenda ou un e-mail d'exfiltrer silencieusement les données Gmail, Agenda et Docs via le RAG de Gemini Enterprise — la classe d'attaque que l'OWASP classe désormais en tête.

2026-06-21//7 min
AGENTS MEDIUM NEW

Agents de code trop zélés : actions hors périmètre sur des tâches anodines

Deux benchmarks de mai 2026 mesurent les agents de code qui débordent sur des requêtes anodines — suppression de fichiers, effacement d'identifiants — et montrent que c'est le framework, pas le modèle, qui porte le risque.

2026-06-21//7 min
AGENTS CRITICAL NEW

Détournement de sélection d'outil : forcer l'agent à choisir l'outil de l'attaquant

Une attaque NDSS 2026 et un papier IBM d'avril 2026 visent le même angle mort : l'étape où un agent choisit quel outil appeler. Empoisonnez le catalogue et l'agent prend le vôtre, avec 70 à 100 % de réussite.

2026-06-21//6 min
DATA LEAK LOW NEW

Capacité contre propension : auditer la fuite de données d'entraînement

Un cadre de juin 2026, PropMe, distingue ce qu'un modèle PEUT divulguer sous attaque de ce qu'il VA divulguer en usage ordinaire. L'écart est large — et les audits qui l'ignorent faussent le risque réel.

2026-06-21//6 min
AGENTS CRITICAL NEW

CVE-2026-0755 : injection de commandes et vol de fichiers dans gemini-mcp-tool

Un avis du 18 juin 2026 détaille comment le populaire gemini-mcp-tool laissait une entrée non fiable atteindre le shell et le parseur @file de Gemini CLI — RCE CVSS 9.8 et exfiltration de fichiers, corrigé en 1.1.6.

2026-06-21//6 min
DEFENSE MEDIUM NEW

Le désapprentissage de backdoor généralise : retirer un déclencheur peut en neutraliser d'autres

Un article de juin 2026 montre que désapprendre un seul déclencheur de backdoor peut affaiblir d'autres backdoors jamais ciblées — lorsque leurs décalages d'activation internes sont proches, mesurés par une nouvelle métrique : la CASD.

2026-06-21//6 min
DEFENSE MEDIUM NEW

Pourquoi les refus des agents échouent : le Cybersecurity Refusal Framework

Un nouveau benchmark montre que les refus de sécurité des agents se décident sur la chaîne d'URL, pas sur la cible réelle. Deux astuces triviales — fausses « règles d'engagement » et proxy localhost — transforment le refus en obéissance sur des sites de production.

2026-06-20//7 min
DEFENSE MEDIUM NEW

Sécurité MCP : la vraie question n'est pas quelles attaques existent, mais où placer les défenses

Un article arXiv d'avril 2026 cartographie les attaques MCP sur six couches architecturales et constate des défenses inégales, trop centrées sur l'outil — laissant l'orchestration hôte, le transport et la chaîne d'approvisionnement structurellement sous-protégés.

2026-06-20//7 min
INDIRECT INJECTION MEDIUM NEW

TRAP : la persuasion détourne les agents web de leur propre tâche

Un benchmark d'Oxford mis à jour sur arXiv en juin 2026 montre que les agents web obéissent à des techniques de persuasion à la Cialdini cachées dans la page, abandonnant leur tâche dans 25% des cas en moyenne, jusqu'à 43% pour le modèle le plus faible.

2026-06-20//6 min
AGENTS MEDIUM NEW

NRT-Bench : red-teaming multi-tours d'agents LLM qui pilotent une centrale

Un benchmark publié le 18 juin 2026 place des agents LLM opérateurs dans une salle de contrôle nucléaire simulée. Des attaques multi-tours adaptatives ont fait franchir une limite de sûreté dans 8,7 à 12,1 % des sessions — et les défaillances se recoupent à peine d'un modèle à l'autre.

2026-06-20//6 min
JAILBREAK MEDIUM NEW

Jailbreak par RL : la récompense et la durée d'épisode font l'attaque

Une étude de juin 2026 décompose le jailbreak par apprentissage par renforcement et montre que la conception de l'environnement — récompense dense et longs épisodes — pèse plus que l'algorithme.

2026-06-20//7 min
JAILBREAK MEDIUM NEW

UniAttack : un jailbreak automatisé qui vise les défenses LLM en couches

Un preprint de juin 2026 construit un framework de red teaming automatisé combinant plusieurs stratégies et le lance contre des modèles aux défenses empilées — montrant qu'empiler des garde-fous ne garantit pas la robustesse.

2026-06-20//5 min
INFRASTRUCTURE MEDIUM NEW

SSRF vLLM : quand le correctif d'allowlist reproduit le même bug de parsing

Deux avis vLLM montrent deux fois la même faille : une allowlist d'hôtes validée par un parseur d'URL et la requête envoyée par un autre. Le correctif a changé de parseurs et rouvert le contournement.

2026-06-20//6 min
DATA LEAK MEDIUM NEW

Exfiltration côté serveur via les agents de recherche approfondie

Une instruction cachée dans un e-mail a suffi pour que l'agent Deep Research de ChatGPT exfiltre des données depuis le cloud d'OpenAI : sans rendu, sans action utilisateur, invisible pour les défenses réseau. Voici la classe et comment la contenir.

2026-06-20//6 min
INFRASTRUCTURE CRITICAL NEW

RAGFlow CVE-2026-45312 : un modèle de prompt qui exécute des commandes système

Une injection de template Jinja2 dans le générateur de prompts de RAGFlow transforme un champ contrôlé par l'utilisateur en RCE côté serveur. CVSS 9.9, divulguée le 9 mai 2026.

2026-06-20//7 min
RESEARCH MEDIUM NEW

Confidentialité différentielle et fine-tuning : l'écart garantie-réalité

Un benchmark ICLR 2026 montre qu'un bon budget de confidentialité différentielle n'égale pas une vraie protection : si les données de fine-tuning ressemblent au corpus de pré-entraînement, l'inférence d'appartenance et l'extraction de canaris réussissent quand même.

2026-06-20//7 min
ADVERSARIAL MEDIUM NEW

Quand le relecteur IA ne sait pas lire la figure : attaques cross-modales sur le peer review

Un papier arXiv de juin 2026 (PaperGuard) montre que les relecteurs IA sont vulnérables non seulement via le texte, mais via les figures — injection de prompt en boîte noire et perturbations d'images en boîte blanche renversent toutes deux le verdict.

2026-06-20//6 min
RESEARCH MEDIUM NEW

Code-Augur : ancrer la détection de vulnérabilités par agents

Le 17 juin 2026, des chercheurs de NUS publient Code-Augur, un harnais qui rend vérifiables les audits de code menés par agents LLM en forçant ceux-ci à inscrire leurs hypothèses de sécurité comme assertions falsifiables.

2026-06-20//7 min
DEFENSE MEDIUM NEW

Localiser l'injection de prompt : de la détection à l'excision forensique

Détecter une injection de prompt vous dit seulement que quelque chose ne va pas. Deux travaux de 2026, PromptLocate et WebSentinel, identifient précisément le segment de contexte empoisonné pour l'exciser et récupérer la tâche.

2026-06-20//6 min
INDIRECT INJECTION MEDIUM NEW

ChatGPhish : le Markdown non fiable transforme les résumés ChatGPT en hameçonnage

Permiso a divulgué ChatGPhish le 29 mai 2026 : une page que vous demandez à ChatGPT de résumer peut afficher liens piégés, fausses alertes, QR codes et pixels traceurs dans l'interface de confiance.

2026-06-20//7 min
DEFENSE MEDIUM NEW

SEAgent : un contrôle d'accès obligatoire contre l'escalade de privilèges des agents

Un article de janvier 2026 reformule les attaques d'agents comme une escalade de privilèges — des actions dépassant le moindre privilège requis — et propose SEAgent, une couche MAC/ABAC déterministe appliquée sur un graphe de flux d'information.

2026-06-20//7 min
AGENTS MEDIUM NEW

Vertex AI « Double Agents » : des service agents sur-privilégiés comme voie d'escalade cloud

Unit 42 a montré (31 mars 2026) qu'un déploiement Vertex AI Agent Engine expose, via le service de métadonnées, une identité de service trop large — transformant un agent mal configuré en accès en lecture à tous les buckets du projet.

2026-06-20//6 min
AGENTS MEDIUM NEW

Injection stockée : quand une injection survit à la session

Un papier arXiv de juin 2026 reformule la prompt injection comme un problème stocké, inter-sessions : une fois le texte adverse logé dans l'état persistant d'un agent, il peut orienter des exécutions bien après le départ de l'attaquant.

2026-06-20//7 min
OFFENSIVE AI MEDIUM NEW

Un agent LLM qui penteste Salesforce Experience Cloud de bout en bout

Le 8 juin 2026, Reco a publié un agent qui cartographie, fuzze et exploite des sites Salesforce Experience Cloud sans intervention humaine — les mêmes erreurs de configuration que ShinyHunters exploite depuis 2025, désormais pilotées par un modèle.

2026-06-20//7 min
RESEARCH MEDIUM NEW

Les garde-fous d'agents échouent en cours de trajectoire : lire la trace prime sur l'alignement

Un benchmark d'avril 2026 sur 20 garde-fous montre que, pour les agents, la détection dépend de la capacité à parser les traces d'appels d'outils, pas de l'alignement — et les LLM généralistes battent les modèles de sécurité dédiés.

2026-06-20//6 min
AGENTS MEDIUM NEW

MemPoison : piéger la mémoire d'un agent par simple conversation

Un papier arXiv de mai 2026 implante une porte dérobée déclenchable dans la mémoire long terme d'un agent LLM par une simple conversation — et il est conçu pour survivre aux étapes d'extraction et de réécriture censées filtrer le contenu empoisonné.

2026-06-20//6 min
RESEARCH MEDIUM NEW

Sécuriser le RAG : quatre surfaces d'attaque le long du pipeline d'accès au savoir

Une étude de juin 2026 recadre la sécurité du RAG autour de l'accès au savoir externe, séparant les failles propres aux LLM du risque introduit par le RAG sur quatre surfaces et trois frontières de confiance.

2026-06-19//7 min
RESEARCH MEDIUM NEW

Le GAP : un modèle peut refuser en texte et exécuter la même action via un outil

Un benchmark de février 2026 sur six modèles de pointe montre que la sécurité du texte ne se transfère pas aux appels d'outils. Un modèle peut dire non en mots pendant que query_records() dit oui — un modèle le fait dans quatre refus sur cinq.

2026-06-19//8 min
INDIRECT INJECTION MEDIUM NEW

Le local n'est pas plus sûr : l'injection indirecte frappe LLM locaux et cloud

Les travaux de Brave du 8 juin 2026 montrent que l'injection de prompt indirecte fonctionne à l'identique contre un agent cloud (Mozilla Tabstack) et un autocomplétion sur appareil (Cotypist) : l'hébergement local n'est pas une mitigation.

2026-06-19//6 min
AGENTS MEDIUM NEW

Agent libOS : faire du runtime, et non du wrapper d'outil, la frontière d'autorité

Un papier arXiv du 2 juin 2026 soutient que la plupart des frameworks d'agents confondent visibilité d'un outil et autorité sur une ressource — et propose un runtime façon library-OS où les contrôles de capacités vivent au niveau des primitives, pas des wrappers.

2026-06-19//7 min
DEFENSE LOW NEW

Cordon : un confinement transactionnel pour les agents LLM outillés

Un papier arXiv du 16 juin 2026 propose des 'transactions sémantiques' : un runtime qui met en attente les effets irréversibles d'un agent et valide tout le flux de la tâche avant de committer.

2026-06-19//6 min
DEFENSE LOW NEW

AuthGraph : alignement à double graphe contre l'injection sur agents

Un papier UCLA du 26 mai 2026 compare un graphe d'autorisation propre au graphe de provenance réel de l'agent, faisant chuter le taux de succès d'attaque de 40 % à 1 % sur AgentDojo.

2026-06-19//6 min
INFRASTRUCTURE MEDIUM NEW

Path traversal dans LangChain Core : load_prompt lit des fichiers arbitraires

CVE-2026-34070 permet à une config de prompt forgée de parcourir le système de fichiers via load_prompt et d'exposer des secrets .txt/.json/.yaml. Divulguée le 27 mars 2026, corrigée dans langchain-core 1.2.22.

2026-06-19//6 min
AGENTS MEDIUM NEW

CSRF du SDK Go MCP : une page web peut déclencher vos outils locaux (CVE-2026-33252)

Le SDK Go MCP officiel acceptait des POST cross-site du navigateur sans vérifier l'en-tête Origin. Sur un serveur local sans authentification, n'importe quel site visité pouvait invoquer vos outils. Corrigé en 1.4.1.

2026-06-19//6 min
INDIRECT INJECTION MEDIUM NEW

Injection par le canal d'erreur : quand les messages d'erreur des outils font autorité

Un papier de juin 2026 (VATS) montre qu'injecter des instructions dans les messages d'erreur des outils triple le taux de réussite de l'injection indirecte sur les agents de pointe — jusqu'à 100 % de conformité — car les modèles traitent la sortie d'erreur comme faisant autorité.

2026-06-19//6 min
ADVERSARIAL MEDIUM NEW

Rapid Poison : quand une défense anti-jailbreak devient une surface d'attaque

Un papier arXiv du 15 juin 2026 montre que l'étape de prolifération des défenses Rapid Response peut être empoisonnée à un taux de 1 %, forçant jusqu'à 100 % de faux positifs ou 96 % de faux négatifs dans le classifieur.

2026-06-19//8 min
AGENTS MEDIUM NEW

SkillAttack : un red-teaming automatisé trouve des exploits dans les skills d'agents

Un papier d'avril 2026, SkillAttack, reformule la découverte d'exploits comme un problème de recherche de chemin et montre que même des skills bien intentionnés sont atteignables — jusqu'à 0,93 de taux de succès sur les skills adverses.

2026-06-19//6 min
AGENTS MEDIUM NEW

Confusion d'autorité : quand l'agent outillé détourne son propre accès

Un papier de mai 2026 nomme un mode de défaillance distinct du prompt injection : une donnée non fiable peut informer le raisonnement d'un agent, mais jamais autoriser un effet de bord. AIRGuard fait respecter cette frontière au moment de l'action.

2026-06-19//8 min
GOVERNANCE MEDIUM NEW

Prévision de mi-année du FIRST : ~66 000 CVE en 2026, mais le risque exploitable reste stable

Le 15 juin 2026, le FIRST a révisé sa projection 2026 à ~66 000 CVE — 46,3 % au-dessus de février — porté surtout par la découverte assistée par IA. Le sous-ensemble actionnable trié via EPSS et CISA KEV n'a pas progressé au même rythme.

2026-06-19//6 min
SUPPLY CHAIN CRITICAL NEW

Les chat templates sont du code : injection Jinja2 (SSTI) dans les serveurs d'inférence LLM

Le bulletin VU#915947 du CERT/CC (20 avril 2026) documente CVE-2026-5760, une RCE CVSS 9.8 dans SGLang : un fichier de modèle GGUF malveillant embarque un chat template Jinja2 qui exécute du Python sur le serveur. Même classe que Llama Drama et une faille vLLM avant lui.

2026-06-19//6 min
DATA POISONING MEDIUM NEW

Oracle poisoning : corrompre le graphe de connaissances sur lequel raisonne un agent

Un article publié sur arXiv le 10 mai 2026 définit l'Oracle Poisoning : corrompez le graphe de connaissances qu'un agent interroge à l'exécution et il tire de fausses conclusions par un raisonnement correct. Sur neuf modèles, la confiance dans les données empoisonnées a atteint 100 % en requêtes agentiques dirigées.

2026-06-19//6 min
INFRASTRUCTURE MEDIUM NEW

La couche de service est la surface d'attaque : bugs de concurrence dans vLLM et SGLang

Un fuzzer de mai 2026, GRIEF, traite des traces de requêtes concurrentes comme entrées et trouve 15 bugs (2 CVE) dans vLLM et SGLang : contamination de sortie entre requêtes, déni de service « voisin bruyant » et crashs différés — sans entrée malformée.

2026-06-19//8 min
AGENTS CRITICAL NEW

CVE-2026-26268 : l'agent de Cursor transforme un git checkout en exécution de code

Un dépôt malveillant cache un dépôt Git « bare » doté d'un hook automatique. Quand l'agent IA de Cursor lance git checkout pour « expliquer le code », le hook se déclenche — exécution de code arbitraire sur la machine du développeur, sans confirmation. Corrigé dans Cursor 2.5.

2026-06-19//6 min
SUPPLY CHAIN MEDIUM NEW

MalTool : quand une IA écrit l'outil malveillant que votre agent installe

Des chercheurs ont synthétisé 6 487 outils d'agent malveillants fonctionnels à l'aide d'un LLM de code. VirusTotal en a manqué la majorité. La leçon : le scan par signatures est le mauvais contrôle pour la chaîne d'approvisionnement des outils d'agents.

2026-06-19//7 min
AGENTS MEDIUM NEW

Attaques médiées par l'utilisateur : quand l'utilisateur devient le canal d'injection

Une étude de janvier 2026 sur 12 agents commerciaux montre que l'attaquant n'a pas besoin de toucher l'agent. Il piège un utilisateur de bonne foi pour qu'il relaie un contenu empoisonné — que la hiérarchie d'instructions promeut alors au rang d'intention utilisateur de confiance. Taux de contournement par défaut supérieur à 92 %.

2026-06-19//7 min
AGENTS CRITICAL NEW

CVE-2026-26030 : l'injection de prompt devient RCE dans Microsoft Semantic Kernel

L'AI Red Team de Microsoft a montré deux failles de Semantic Kernel qui transforment un simple prompt injecté en exécution de code sur l'hôte. La leçon : tout paramètre d'outil influençable par le modèle est une entrée contrôlée par l'attaquant. Corrigé le 7 mai 2026.

2026-06-19//6 min
AGENTS MEDIUM NEW

SearchGEO : faire recommander des pages d'attaquant par les agents de recherche LLM

Un papier arXiv du 15 juin 2026 mesure comment un contenu web contrôlé par un attaquant devient une recommandation endossée par l'agent — le taux de succès va de 0 % à 31,4 % selon le modèle.

2026-06-18//6 min
INFRASTRUCTURE CRITICAL NEW

LiteLLM CVE-2026-49468 : un contournement d'authentification par en-tête Host dans le routage de la passerelle

Divulguée le 17 juin 2026, CVE-2026-49468 permet à un en-tête Host forgé de désynchroniser la route d'auth de LiteLLM de celle exécutée par FastAPI — une rechute de BadHost au niveau applicatif, corrigée dans LiteLLM 1.84.0.

2026-06-18//6 min
DEFENSE MEDIUM NEW

SkillVetBench : un LLM-juge qui voit ce que les scanners de skills ratent

Un papier arXiv du 14 juin 2026 montre que les scanners de skills au niveau code ratent 89 à 100 % des menaces au niveau instruction, là où un LLM-juge détecte les 78 skills malveillantes de test sans aucun faux positif.

2026-06-18//7 min
RESEARCH MEDIUM NEW

Vers des agents LLM sûrs : un SoK de 247 papiers qui repense la sécurité des agents comme un problème système

Une étude arXiv du 9 juin 2026 portant sur 247 papiers replace la sécurité des agents LLM sur la boucle agentique : des défenses qui marchent isolément mais se composent mal, et des benchmarks aveugles au risque long et à état.

2026-06-18//7 min
AGENTS MEDIUM NEW

Agents zombies : quand un agent LLM auto-évolutif reste compromis d'une session à l'autre

Une injection indirecte ponctuelle, observée pendant une session anodine, peut être écrite dans la mémoire longue de l'agent puis rejouée comme instruction — transformant un prompt éphémère en contrôle persistant. Article d'attaque daté de février 2026, défense (CAMS) de mai 2026.

2026-06-18//8 min
RESEARCH LOW NEW

Géométrie comportementale : prédire la vulnérabilité au jailbreak dans une population de modèles

Un papier arXiv du 26 mai 2026 cartographie 79 modèles dans une « géométrie comportementale » pour prédire lesquels sont sensibles au jailbreak — avec 98 % de sondes en moins — et transférer les défenses entre eux.

2026-06-18//6 min
DEFENSE MEDIUM NEW

SafeMCP : filtrer l'acquisition d'outils pour contenir la quête de pouvoir des agents MCP

Un papier arXiv du 1er juin 2026 (ACL 2026) propose SafeMCP, un plugin côté serveur qui utilise un raisonnement anticipatif par modèle du monde pour filtrer l'acquisition d'outils dangereux avant qu'un agent MCP n'étende ses pouvoirs.

2026-06-18//6 min
RESEARCH LOW NEW

Provenance d'exécution des agents LLM : tracer les preuves pour rétablir la confiance

Une étude arXiv de juin 2026 (2606.04990) systématise le traçage de preuves et la provenance d'exécution des agents LLM — la couche de responsabilité qui permet d'auditer, déboguer et vérifier ce qu'un agent a réellement fait.

2026-06-18//7 min
DATA LEAK MEDIUM NEW

Ghost tool calls : l'exécution spéculative des agents fuite l'intention de l'utilisateur

Un papier arXiv de juin 2026 (2606.02483) montre que les agents qui pré-émettent spéculativement des appels d'outils pour masquer la latence fuitent l'intention déduite de l'utilisateur vers des services externes — et que c'est un problème de timing qu'aucune allow-list n'annule.

2026-06-18//6 min
DEFENSE MEDIUM NEW

La triade létale est devenue la norme — défendez les agents à l'exécution

La triade létale signalait jadis les agents à risque. Mi-2026, elle décrit tout agent utile : l'évitement architectural ne suffit plus. La défense se déplace vers cinq signaux comportementaux à l'exécution.

2026-06-18//6 min
AGENTS MEDIUM NEW

AI Agent Traps : la cartographie en six catégories de DeepMind sur le détournement des agents par le web

Le papier « AI Agent Traps » de Google DeepMind (SSRN, fin mars 2026) propose la première taxonomie systématique des contenus web adverses qui ciblent la perception, le raisonnement, la mémoire, l'action, la dynamique multi-agents et le superviseur humain d'un agent.

2026-06-18//7 min
JAILBREAK MEDIUM NEW

Les jailbreaks adaptatifs continuent de percer les défenses LLM : le vrai problème, c'est l'évaluation

Un framework de juin 2026, UniAttack, compose des « caractéristiques » d'attaque réutilisables en jailbreaks one-shot qui se transfèrent d'un modèle et d'une défense à l'autre — preuve qu'une défense testée seulement contre des attaques statiques offre une fausse assurance.

2026-06-18//6 min
DEFENSE MEDIUM NEW

DoubtProbe : détecter les jailbreaks qui réorganisent l'intention

Un papier de juin 2026 propose une défense à l'inférence qui traite la détection de jailbreak comme un contrôle de cohérence : on reconstruit la requête sous contraintes structurelles, puis on signale les prompts dont le sens ne survit pas à l'aller-retour.

2026-06-18//6 min
AGENTS MEDIUM NEW

ShadowMerge : empoisonner la mémoire-graphe des agents par collision de relations

Un papier de mai 2026 empoisonne la mémoire-graphe d'un agent avec des relations qui partagent un ancrage et un canal réels mais portent une valeur contradictoire — 93,8 % de réussite sur Mem0, et les filtres en entrée passent à côté.

2026-06-18//6 min
SUPPLY CHAIN MEDIUM NEW

Secret Stealing : du code de modèle piégé exfiltre vos données de fine-tuning

Un papier du 30 avril 2026 montre qu'un code de modèle altéré — et non des poids empoisonnés — peut voler clés d'API et données personnelles dans un fine-tuning local, avec >98 % de récupération, en contournant DP-SGD et les audits.

2026-06-18//6 min
ADVERSARIAL MEDIUM NEW

Black-Hole Attack : empoisonner une base vectorielle via la géométrie des embeddings

Un papier du 7 avril 2026 montre que quelques vecteurs placés près du centroïde sont remontés dans jusqu'à 99,85 % des top-10 — un empoisonnement de base vectorielle indépendant des requêtes et du modèle.

2026-06-18//6 min
RESEARCH MEDIUM NEW

Pourquoi les défenses des agents LLM ne se composent pas : leçons de 247 papers

Une revue systématique de juin 2026 portant sur 247 papers conclut que les défenses des agents sont des briques utiles mais faiblement composables, et que les benchmarks ignorent encore le risque persistant et de long terme.

2026-06-18//7 min
DATA LEAK MEDIUM NEW

Inférence d'appartenance via le tokenizer d'un LLM : un nouveau vecteur

Un papier USENIX Security 2026 montre que le seul tokenizer d'un modèle peut révéler quels jeux de données ont servi au pré-entraînement — une attaque par inférence d'appartenance moins chère et sans modèle.

2026-06-18//6 min
AGENTS MEDIUM NEW

Les agents navigateurs trahissent leur modèle par leur façon de cliquer

Un papier du 14 mai 2026 montre que les actions d'un agent navigateur LLM sur une page suffisent à identifier le modèle sous-jacent, avec jusqu'à 96 % de précision sur 14 modèles de pointe — sans en-têtes falsifiables.

2026-06-18//6 min
INFRASTRUCTURE CRITICAL NEW

LiteLLM CVE-2026-47101→40217 : d'un compte limité à l'admin et au RCE

Obsidian Security a divulgué (juin 2026) une chaîne de trois failles LiteLLM qui fait passer un utilisateur peu privilégié à proxy_admin puis à l'exécution de code — une prise de contrôle CVSS 9.9 de la passerelle IA.

2026-06-18//7 min
MULTIMODAL MEDIUM NEW

Sirens' Whisper : des jailbreaks inaudibles en quasi-ultrasons contre les LLM vocaux

Un article du 14 mars 2026 (Huazhong, Tsinghua, Microsoft) dissimule des prompts de jailbreak dans la bande 17–22 kHz. La non-linéarité du micro les redémodule en commandes — silencieux pour l'humain, jusqu'à 0,94 de non-refus sur des LLM vocaux commerciaux.

2026-06-18//8 min
RESEARCH MEDIUM NEW

Où entrent vraiment les attaques contre les agents : une cartographie issue de 247 papers

Une étude de juin 2026 portant sur 247 papers mesure où atterrissent les attaques contre les agents LLM. Le prompt utilisateur n'est qu'une surface parmi d'autres — les canaux médiatisés (contenu web, sorties d'outils) dominent.

2026-06-18//8 min
JAILBREAK MEDIUM

IICL : la complétion de motif bat l'alignement avec 10 exemples

Un papier arXiv d'avril 2026 retourne l'apprentissage en contexte contre le modèle : une dizaine d'exemples à base d'opérateurs abstraits font compléter à GPT-5.4 un motif nuisible que ses filtres de contenu ne détectent jamais.

2026-06-17//7 min
DEFENSE MEDIUM NEW

Détecter les attaques dans le trafic d'appels d'outils : le contenu prime

Une étude arXiv de mai 2026 sur la supervision des appels d'outils MCP montre que les embeddings de contenu portent la détection (AUROC > 0,89), que la structure de graphe apporte peu, et que les splits aléatoires gonflent les scores jusqu'à 26 points.

2026-06-17//6 min
RESEARCH MEDIUM NEW

Le « cold-start safety gap » : l'agent est le moins sûr au tout premier tour

Un papier de juin 2026 montre que les agents à outils sont les plus vulnérables au début d'une session et gagnent 9 à 52 % de sûreté après quelques tâches anodines. Le correctif est un « échauffement » au déploiement, pas un nouveau garde-fou.

2026-06-17//6 min
DEFENSE LOW NEW

RUBAS : un signal de récompense fin pour la sûreté des agents par RL à grilles

Un papier de juin 2026 remplace la récompense binaire refus/exécution par quatre grilles notées — usage d'outil, arguments, réponse, utilité — pour entraîner des agents qui restent sûrs sans perdre en utilité.

2026-06-17//5 min
RESEARCH MEDIUM NEW

Les garde-fous anti-fine-tuning des modèles ouverts cèdent à des attaques sans gradient

Une étude CMU de mai 2026 montre que des garde-fous résistants à l'altération comme TAR et SEAM — conçus pour survivre au fine-tuning malveillant — sont contournés par deux attaques bon marché et sans gradient : l'abliteration et le prefilling.

2026-06-17//6 min
INDIRECT INJECTION MEDIUM NEW

MIRAGE : les agents GUI mobiles trompés par du contenu utilisateur injecté

Une étude de mai 2026 montre que les agents GUI mobiles fondés sur des VLM ne distinguent pas l'interface de confiance du contenu utilisateur. Du texte réaliste injecté dans des commentaires détourne les cinq agents testés (23–30 % de réussite).

2026-06-17//6 min
INDIRECT INJECTION CRITICAL NEW

LogJack : les logs cloud, canal d'injection de prompt contre les agents de débogage

Un benchmark d'avril 2026 montre que les agents de débogage LLM qui lisent les logs cloud et exécutent des correctifs obéissent aux instructions cachées dans les lignes de log — exécution verbatim jusqu'à 86,2 %, RCE sur 6 modèles sur 8, et des garde-fous fournisseurs qui ne détectent presque rien.

2026-06-17//6 min
RESEARCH MEDIUM NEW

La « taxe de jailbreak » s'évanouit sur les modèles de pointe — et invalide une hypothèse de sécurité

Une étude d'avril 2026 montre que la perte de capacité causée par un jailbreak diminue à mesure que les modèles progressent : Haiku 4.5 chute de 33,1 %, Opus 4.6 de seulement 7,7 %. Les analyses de risque qui supposent qu'un modèle jailbreaké est dégradé ne tiennent plus.

2026-06-17//6 min
AGENTS MEDIUM NEW

Déni de service par extension de raisonnement : quand le garde-fou IA devient la surface d'attaque

Un papier de juin 2026 montre qu'un seul document piégé peut enfermer un garde-fou IA à base de raisonnement dans une boucle de réflexion sans fin, ralentissant les workflows d'agents jusqu'à 148x. La cible : la disponibilité, pas l'intégrité.

2026-06-17//6 min
AGENTS CRITICAL NEW

Agents de code IA : les attaquants visent le credential, pas le modèle

Six exploits de 2026 contre Codex, Claude Code, Copilot et Vertex AI ont tous contourné les défenses au niveau du modèle pour atteindre la même cible : les credentials d'exécution de l'agent. La cause profonde est un défaut de gouvernance des identités, pas un problème de prompt.

2026-06-17//7 min
SUPPLY CHAIN CRITICAL NEW

LiteLLM piégé : quand un scanner CI corrompu prend le contrôle de la passerelle LLM

En mars 2026, des attaquants ont volé le jeton de publication PyPI de LiteLLM en compromettant Trivy dans son pipeline CI, puis ont diffusé deux versions piégées. La chaîne montre pourquoi la passerelle LLM est une cible de choix.

2026-06-17//7 min
PROMPT INJECTION MEDIUM NEW

Reprompt : exfiltration en un clic depuis Copilot Personal via prompt prérempli dans l'URL

Une faille corrigée de Copilot Personal enchaînait un prompt prérempli dans l'URL, un garde-fou qui ne vérifiait que la première requête, et des relances pilotées par serveur, pour une exfiltration furtive en un clic. Les leçons de contournement sont générales.

2026-06-17//6 min
AGENTS CRITICAL NEW

Checkpointers LangGraph : de l'injection SQL au RCE sur agents auto-hébergés

Check Point Research a enchaîné une injection SQL dans le checkpointer de LangGraph avec une désérialisation msgpack non sécurisée pour atteindre l'exécution de code à distance. Divulgué le 11 juin 2026 ; les trois CVE sont corrigées.

2026-06-17//7 min
AGENTS MEDIUM NEW

Empoisonnement de terminaison : piéger un agent LLM dans des boucles infinies

Un papier arXiv de mai 2026 montre qu'une injection peut fausser le jugement de fin de tâche d'un agent et provoquer un calcul sans borne. Le framework LoopTrap rapporte jusqu'à 25x d'amplification.

2026-06-17//6 min
DATA LEAK MEDIUM NEW

Canaux auxiliaires sur l'inférence LLM : vos prompts fuient malgré TLS

Le décodage spéculatif et les réponses en streaming créent des motifs de trafic qui révèlent le sujet d'un prompt, sa langue, parfois des données personnelles — à travers des connexions chiffrées. Tour d'horizon de trois papers et des défenses.

2026-06-17//7 min
ADVERSARIAL MEDIUM NEW

M3Att : empoisonnement de RAG médical multimodal sans connaître les requêtes

Un papier de mai 2026 empoisonne un RAG médical image-texte sans connaître à l'avance les requêtes des utilisateurs. Des perturbations d'image imperceptibles détournent la récupération ; un texte guidé par l'ambiguïté clinique échappe à l'autocorrection du modèle — et les défenses de pré-filtrage n'y changent presque rien.

2026-06-17//7 min
DEFENSE LOW NEW

SkillGuard : un cadre de permissions pour ce qu'une skill d'agent peut faire à l'exécution

Un papier de juin 2026 comble l'écart entre ce qu'une skill injecte dans le contexte d'un agent et ce qu'elle lui fait faire, via des manifestes, un contrôle d'accès deny-by-default et de la surveillance à l'exécution.

2026-06-17//6 min
GOVERNANCE MEDIUM NEW

AI Act : comment les lignes directrices classent les systèmes agentiques en haut risque

Les lignes directrices de la Commission européenne du 19 mai 2026 sur l'article 6 imposent d'évaluer un système agentique dans son ensemble — un seul composant accessoire peut faire basculer toute la configuration en haut risque.

2026-06-17//6 min
RESEARCH MEDIUM NEW

Red teaming Quality-Diversity : pourquoi un seul score de jailbreak masque toute une carte de failles

Deux papers de juin 2026 appliquent la recherche évolutionnaire Quality-Diversity au red teaming des LLM : ils révèlent de nombreuses classes de vulnérabilités distinctes par modèle plutôt qu'une seule « meilleure » attaque, et montrent que la sûreté peut régresser d'une génération de modèle à l'autre.

2026-06-17//7 min
DEFENSE MEDIUM NEW

Backdoors leurres : supprimer les backdoors LLM inconnues via des mécanismes internes partagés

Un article de juin 2026 supprime des backdoors invisibles en en plantant une visible : différentes backdoors partagent des motifs d'activation internes, donc effacer un « leurre » contrôlé affaiblit aussi l'inconnue.

2026-06-17//6 min
SUPPLY CHAIN MEDIUM NEW

Semantic Compliance Hijacking : des skills d'agent sans payload, invisibles aux scanners

Un papier arXiv du 14 mai 2026 montre qu'un fichier de skill sans code ni intention malveillante explicite peut amener un agent de code à écrire lui-même son malware à l'exécution — avec un taux de détection de 0,00 %.

2026-06-17//6 min
AGENTS MEDIUM NEW

FragFuse : des requêtes fragmentées qui contournent le contrôle d'accès des agents LLM

Un papier arXiv du 14 juin 2026 montre qu'une requête interdite peut être découpée en fragments anodins, stockée dans la mémoire longue de l'agent, puis recomposée à la lecture — contournant les contrôles d'accès dans 86,3 % des cas.

2026-06-17//6 min
RESEARCH MEDIUM NEW

Preuve NIST : aucun garde-fou fini ne bloque tous les jailbreaks

Un scientifique du NIST applique la logique d'incomplétude de Gödel pour prouver que tout ensemble fini de garde-fous peut être contourné par un prompt — l'argument d'un modèle de sécurité en surveillance et mise à jour continues.

2026-06-16//7 min
INFRASTRUCTURE CRITICAL NEW

Langflow CVE-2026-5027 : écriture de fichier non authentifiée vers RCE, déjà exploitée

Un path traversal dans l'endpoint /api/v2/files de Langflow permet à une requête non authentifiée d'écrire un fichier n'importe où sur le disque. VulnCheck a confirmé l'exploitation active le 9 juin 2026 ; ~7 000 instances sont exposées.

2026-06-16//6 min
RESEARCH MEDIUM NEW

La sécurité des agents se joue dans les transitions, pas dans les composants

Une synthèse de juin 2026 portant sur 247 articles recadre la sécurité des agents LLM autour des transitions d'état : le danger survient quand un texte non fiable devient silencieusement un plan, une décision, une action ou une mémoire durable.

2026-06-16//7 min
GOVERNANCE MEDIUM NEW

Des dirigeants de l'IA demandent au Congrès de rendre obligatoire le criblage de la synthèse d'ADN

Le 5 juin 2026, les patrons d'OpenAI, Anthropic, Google DeepMind et Microsoft AI ont cosigné une lettre exhortant le Congrès à imposer le criblage de la synthèse d'acides nucléiques — présenté comme un contrôle défensif face à l'érosion des barrières par l'IA.

2026-06-16//6 min
JAILBREAK MEDIUM NEW

Para-jailbreaking : quand la « safe completion » fuit le danger dans l'alternative

Un papier arXiv du 27 avril 2026 nomme un nouveau mode de défaillance de la sûreté centrée sur la sortie : le modèle refuse correctement la question directe, mais laisse fuir du contenu nuisible dans l'« alternative sûre » qu'il propose à la place.

2026-06-16//7 min
RESEARCH MEDIUM NEW

SCONE-bench : chiffrer l'exploitation autonome par IA en dollars volés

L'étude d'Anthropic du 1er décembre 2025 mesure l'exploitation par agents IA en argent, pas en taux de réussite : sur des smart contracts, les modèles de pointe ont produit 4,6 M$ de vol simulé et deux vrais zero-days à 1,22 $ le scan.

2026-06-16//8 min
INDIRECT INJECTION CRITICAL NEW

Agentjacking : de faux bugs Sentry détournent les agents de code via MCP

La recherche de Tenet Security (juin 2026) montre qu'un attaquant peut injecter une fausse erreur Sentry que les agents de code lisent via MCP et exécutent, exfiltrant des secrets avec 85 % de réussite sur 2 388 organisations exposées.

2026-06-16//8 min
SUPPLY CHAIN MEDIUM NEW

HAMLOCK : une porte dérobée partagée entre le modèle et la puce

Un article USENIX Security 2026, médiatisé le 15 juin 2026, scinde une porte dérobée entre le logiciel et le silicium : le modèle seul ne se trompe jamais, et les scanners logiciels comme Neural Cleanse ou MNTD ne voient rien.

2026-06-16//7 min
DEFENSE MEDIUM NEW

Les défenses par provenance de la mémoire-graphe des agents sont aveugles par construction

Un article arXiv daté du 10 juin 2026 montre que les contrôles de provenance sur la mémoire-graphe des LLM se contournent sans falsifier aucune source : une écriture de structure non fiable change quels faits authentifiés sont sélectionnés, et le contrôle de flux d'information ne le voit jamais.

2026-06-16//6 min
DEFENSE MEDIUM NEW

La vie privée d'un agent est un problème de trajectoire : OCELOT budgétise la fuite par inférence à l'exécution

Un article arXiv daté du 10 juin 2026 redéfinit la vie privée des agents LLM comme un contrôle du risque a posteriori : non plus filtrer chaque sortie, mais budgétiser de combien la croyance d'un adversaire sur un secret peut progresser sur toute une trajectoire.

2026-06-16//6 min
DATA LEAK MEDIUM NEW

Exposition des traces de raisonnement : masquer le chain-of-thought ne le protège pas

Un papier de mai 2026 montre qu'un simple prompt suffit à faire ressortir le chain-of-thought masqué d'un modèle de raisonnement — et que les traces récupérées suffisent à distiller un modèle plus petit.

2026-06-16//8 min
RESEARCH MEDIUM NEW

Directions d'évasion du refus : pourquoi l'alignement ne peut pas refermer la brèche des jailbreaks

Un papier de mai 2026 prouve que les LLM alignés conservent des « directions d'évasion du refus » inscrites dans leur structure d'opérateurs — ce qui explique la persistance des jailbreaks et le coût en utilité de leur suppression.

2026-06-16//8 min
DEFENSE LOW NEW

Skills d'agent vérifiés : gouvernance des capacités pour la chaîne SKILL.md

Les skills d'agent vérifiés de NVIDIA (19 mai 2026) ajoutent scan de risques, signature cryptographique et fiches de skill lisibles par machine à la chaîne SKILL.md — une réponse défensive aux skills empoisonnés.

2026-06-16//6 min
DATA LEAK MEDIUM NEW

SearchLeak (CVE-2026-42824) : un clic transforme M365 Copilot en proxy d'exfiltration

Varonis a publié le 15 juin 2026 les mécanismes de CVE-2026-42824 : un lien microsoft.com piégé enchaîne injection de prompt, course au rendu HTML et SSRF Bing pour voler mails et codes MFA. Corrigé côté serveur.

2026-06-16//7 min
DEFENSE MEDIUM NEW

Parallax : placer la sécurité des agents dans l'architecture, pas dans le prompt

Un position paper publié le 14 avril 2026 soutient que les garde-fous au niveau du prompt s'effondrent dès que le raisonnement d'un agent est compromis, et propose de séparer structurellement ce qui pense de ce qui agit.

2026-06-16//8 min
INDIRECT INJECTION MEDIUM NEW

Cross-App Context Poisoning : une app ChatGPT malveillante peut piloter les autres

Une étude arXiv de juin 2026 montre qu'une app ChatGPT malveillante peut écrire dans le contexte de conversation partagé par toutes les apps connectées via des API first-party, transformant le modèle en député confus.

2026-06-16//6 min
GOVERNANCE MEDIUM NEW

Divulgation à la vitesse machine : leçons du premier registre de vulnérabilités IA

Le registre de divulgation coordonnée d'Anthropic, analysé par VulnCheck le 9 juin 2026, montre l'IA remontant 23 019 bugs candidats quand seuls 1 596 atteignent les mainteneurs — un aperçu de la divulgation à l'ère de la découverte automatisée.

2026-06-16//8 min
DEFENSE LOW NEW

Architecturer des agents sûrs : une défense « plan et politique » contre l'injection de prompt

Un position paper de NVIDIA (31 mars 2026) soutient que l'injection de prompt indirecte ne se corrige pas au seul niveau du modèle — et propose une architecture « plan et politique » qui contraint ce qu'un agent peut observer et décider.

2026-06-16//6 min
DATA LEAK MEDIUM NEW

GraphSteal : reconstruire un graphe de connaissances privé depuis un Graph RAG

Un article publié le 27 mai 2026 montre que de simples requêtes en boîte noire transforment un système Graph RAG en oracle structurel, reconstruisant plus de 90 % de son graphe de connaissances caché.

2026-06-16//6 min
AGENTS MEDIUM NEW

Systèmes multi-agents LLM cross-domaine : sept défis de sécurité

Une Perspective publiée le 13 juin 2026 dans npj Artificial Intelligence cartographie sept défis de sécurité qui apparaissent lorsque des agents LLM de différentes organisations collaborent sans modèle de confiance commun.

2026-06-16//7 min
DATA LEAK MEDIUM NEW

MEntA : inférence d'appartenance sur un corpus RAG en cinq requêtes

Un papier USENIX Security de mai 2026 montre qu'un attaquant peut déterminer si un document figure dans le corpus de récupération d'un RAG avec environ cinq questions en langage naturel — sans modèle fantôme, sans gabarit, et en résistant aux défenses actuelles.

2026-06-16//6 min
SUPPLY CHAIN MEDIUM NEW

Quand le #1 des tendances est un malware : le typosquat Hugging Face Open-OSS/privacy-filter

Le 7 mai 2026, HiddenLayer a trouvé Open-OSS/privacy-filter, un typosquat du modèle d'OpenAI arrivé en tête des tendances Hugging Face avec ~244 000 téléchargements en 18 heures, qui livrait un infostealer Rust.

2026-06-15//6 min
GOVERNANCE MEDIUM NEW

Quand un État retire un modèle : la suspension de Fable 5 / Mythos 5

Le 12 juin 2026, une directive de contrôle des exportations américaine a contraint Anthropic à désactiver Claude Fable 5 et Mythos 5 dans le monde entier. Le déclencheur invoqué : un « jailbreak » qui revient à demander au modèle de lire du code et d'en corriger les failles — une tâche défensive quotidienne.

2026-06-15//7 min
RESEARCH MEDIUM NEW

XL-SafetyBench : tester la sûreté des LLM dans 10 pays, pas seulement en anglais

Un papier arXiv du 7 mai 2026 (AIM Intelligence et l'AI Red Team de Microsoft) montre que les tests de sûreté anglo-centrés ratent les risques propres à chaque pays — et que la « sûreté » de beaucoup de modèles n'est qu'un refus par accident.

2026-06-15//7 min
SUPPLY CHAIN MEDIUM NEW

MalSkillBench : on ne sait pas mesurer les détecteurs de skills malveillants, car les jeux de test sont biaisés

Un article de juin 2026 construit le premier benchmark à vérification d'exécution des skills d'agent malveillants — 3 944 échantillons sur 108 cellules d'attaque — et montre que le rappel d'un même détecteur peut varier de 66 points selon le jeu de données utilisé.

2026-06-15//7 min
DEFENSE MEDIUM NEW

Pourquoi les détecteurs d'injection de prompt échouent : le problème d'évasion en 2026

Des classifieurs par mots-clés aux sondes de dérive d'activation, les détecteurs d'injection de prompt partagent une faiblesse : l'adversaire adaptatif. Deux études rapportent jusqu'à ~100 % d'évasion. La détection est une couche, jamais la frontière.

2026-06-15//7 min
RESEARCH MEDIUM NEW

La confidentialité des LLM n'est pas un risque unique : par quoi commencer

Une étude de mai 2026 mesure inférence d'appartenance, inférence d'attribut, extraction de données et portes dérobées sous un même modèle de menace. Conclusion : la fuite dépend de vos choix de conception — taille, duplication des données, configuration RAG — plus que de l'attaque.

2026-06-15//7 min
AGENTS MEDIUM NEW

TOCTOU dans les agents IA : violations d'atomicité entre observation et action

Une vieille faille des systèmes d'exploitation refait surface dans les agents : le monde change entre le moment où l'agent regarde et celui où il agit. Des travaux de 2026 la formalisent pour les agents GUI, navigateur et multi-agents.

2026-06-15//6 min
INDIRECT INJECTION MEDIUM NEW

Profondeur d'injection dans les agents ReAct : la position prime sur la formulation

Une étude de juin 2026 sur les agents ReAct à appels d'outils montre que c'est la profondeur d'injection — pas la rhétorique — qui pilote l'injection indirecte : 60 % de réussite au premier appel d'outil, 0 % au quatrième.

2026-06-15//6 min
DEFENSE MEDIUM

Confidential Computing et IA agentique : ce que les enclaves ne protègent pas

Une étude de mai 2026 projette le confidential computing sur la pile agentique : les enclaves matérielles protègent la mémoire et le cache KV d'un opérateur cloud malveillant, mais n'arrêtent pas la prompt injection.

2026-06-15//6 min
AGENTS MEDIUM NEW

Le serveur MCP de Splunk journalise les jetons d'auth en clair (CVE-2026-20205)

L'app Splunk MCP Server écrivait les jetons de session et d'autorisation des utilisateurs en clair dans l'index _internal — une faille CWE-532 (secrets dans les logs) qui transforme l'accès aux journaux en vol de jetons. Corrigé en v1.0.3.

2026-06-15//6 min
AGENTS CRITICAL NEW

Le DNS rebinding transforme les serveurs MCP en localhost en surface d'attaque distante

Une vague de divulgations coordonnées 2025–2026 a touché tous les grands SDK MCP pour une même cause racine : des serveurs HTTP en localhost qui ne valident pas l'en-tête Host/Origin. La plus récente, CVE-2026-11624 dans le MCP Toolbox de Google (13 juin 2026), est notée Critique 9,4.

2026-06-15//7 min
DEFENSE MEDIUM NEW

Pourquoi les jailbreaks se transfèrent entre modèles — et comment le « salage » riposte

Une étude sur 20 modèles open-weight montre que le transfert des jailbreaks vient des représentations internes partagées, pas d'un défaut de l'alignement. Une défense appelée LLM salting fait pivoter la direction de refus pour casser la réutilisation.

2026-06-15//6 min
RESEARCH MEDIUM NEW

Un modèle sûr n'est pas un agent sûr : les leçons du benchmark ClawSafety

Un benchmark d'avril 2026 exécute 2 520 essais en bac à sable sur des agents IA personnels et mesure des taux de réussite d'attaque de 40 à 75 %. Les variables décisives sont le canal d'injection et le framework de l'agent — pas seulement le modèle sous-jacent.

2026-06-15//6 min
SUPPLY CHAIN CRITICAL NEW

ktransformers : RCE non authentifiée via pickle sur ZeroMQ (CVE-2026-26210)

Une RCE critique dans le moteur d'inférence ktransformers expose un socket ZMQ sur toutes les interfaces et déserialise via pickle tout ce qu'il reçoit. C'est le dernier cas du motif « ShadowMQ » recopié à travers les stacks d'inférence IA.

2026-06-15//6 min
AGENTS CRITICAL NEW

CVE-2026-46519 : quand un serveur MCP filtre les outils à l'affichage mais pas à l'exécution

mcp-server-kubernetes n'appliquait ses contrôles read-only et allow-list que dans tools/list, jamais dans tools/call. Tout client connaissant le nom d'un outil pouvait l'exécuter. Une leçon nette sur l'autorisation à l'affichage vs à l'exécution.

2026-06-15//6 min
ADVERSARIAL MEDIUM NEW

CRCP : l'empoisonnement de corpus RAG qui survit au chunking et au reranking

Un article arXiv du 9 juin 2026 montre que beaucoup d'attaques par empoisonnement de corpus échouent discrètement après le reranking — et propose CRCP, une variante "chunk-aware" conçue pour survivre aux pipelines RAG réalistes. La leçon porte sur la façon d'évaluer, pas seulement de défendre.

2026-06-15//6 min
RESEARCH LOW NEW

Cyber Defense Benchmark : les LLM de pointe échouent au threat hunting

Un benchmark d'avril 2026 lâche cinq modèles de pointe dans des logs Windows bruts et leur demande de chasser. Le meilleur trouve 3,8 % des événements malveillants — aucun n'atteint le seuil d'un SOC autonome.

2026-06-15//6 min
SUPPLY CHAIN CRITICAL NEW

Routeurs d'API LLM malveillants : l'homme du milieu non surveillé des agents

Une étude de l'UC Santa Barbara (arXiv, 9 avril 2026) a mesuré 428 routeurs d'API LLM tiers : plusieurs injectaient du code, volaient des identifiants et ont vidé un portefeuille crypto — depuis une frontière de confiance que les développeurs configurent volontairement.

2026-06-15//7 min
AGENTS CRITICAL NEW

Flowise CVE-2026-41264 : du code pandas écrit par le LLM jusqu'au RCE

Une prompt injection dans l'agent CSV de Flowise pousse le modèle à produire du Python qui échappe à une liste noire d'expressions régulières et exécute des commandes OS. Divulguée le 15 avril 2026, corrigée en 3.1.0.

2026-06-15//6 min
DEFENSE LOW NEW

SafeHarbor : un garde-fou à mémoire hiérarchique qui s'attaque au sur-refus des agents

Accepté à ICML 2026, SafeHarbor est un garde-fou sans réentraînement qui injecte des règles de sécurité contextuelles depuis un arbre de risques auto-évolutif — 63,6 % d'utilité bénigne sur GPT-4o tout en refusant plus de 93 % des attaques.

2026-06-15//6 min
RESEARCH LOW NEW

SEC-bench Pro : les agents IA savent-ils vraiment chasser les bugs dans V8 et SpiderMonkey ?

Un benchmark du 26 mai 2026 mesure les agents de code sur la découverte de vulnérabilités au long cours dans de vrais moteurs de navigateur. Les modèles de pointe restent sous 40 % — et l'écart compte autant pour l'attaque que pour la défense.

2026-06-15//6 min
DEFENSE MEDIUM NEW

L'injection de prompt n'est pas résolue — contenez-la à la vitesse machine

À l'Infosecurity Europe 2026, Ariel Fogel (OWASP) a qualifié l'injection de prompt de problème architectural non résolu et plaidé pour un passage de la prévention au confinement à l'exécution, aussi rapide que l'agent.

2026-06-15//6 min
DEFENSE MEDIUM NEW

SecureClaw : une défense à double frontière pour les agents LLM outillés

Un article de juin 2026 propose de garder deux frontières distinctes à la fois — autoriser les actions externes au point d'effet et confiner le texte en clair à la frontière de lecture — avec 0 % de réussite d'attaque sur un benchmark d'agents.

2026-06-14//6 min
JAILBREAK MEDIUM NEW

Jailbreak vidéo multi-clips : pourquoi la vidéo casse la sûreté des LLM multimodaux

Un papier ACL de juin 2026 montre que le canal vidéo est une frontière de sûreté plus faible que l'image : le taux de réussite grimpe quand la vidéo est découpée en clips variés.

2026-06-14//7 min
RESEARCH MEDIUM NEW

SIGIL : prouver que votre texte a servi à entraîner un LLM

Un papier arXiv de juin 2026 propose d'insérer des canaris imperceptibles dans des textes et du code pour prouver, avec un taux de faux positifs contrôlé, qu'un modèle a été entraîné sur vos données.

2026-06-13//6 min
AGENTS MEDIUM NEW

ConVerse : quand deux agents discutent, c'est le plus fort qui fuit le plus

Un benchmark des conversations agent-à-agent montre que les attaques de confidentialité réussissent jusqu'à 88 % du temps, les atteintes de sécurité jusqu'à 60 % — et que les modèles les plus capables fuitent davantage, pas l'inverse.

2026-06-13//7 min
RESEARCH LOW NEW

Injection neuro-prompt : quand le signal cérébral devient le canal d'autorisation d'un agent

Un papier arXiv du 8 juin 2026 nomme une nouvelle surface d'attaque : les pipelines BCI-vers-agent qui transforment l'EEG décodé en canal d'autorisation. Trois vecteurs inversent l'action routée pendant que les moniteurs EEG et texte restent aveugles.

2026-06-13//6 min
DEFENSE MEDIUM NEW

PI-Hunter : auditer les agents pour exposer et localiser les injections de prompt cachées

Un article de juin 2026 signé par des chercheurs de Google transforme le red-teaming d'injection de prompt en audit — PI-Hunter fait évoluer des cas de test ancrés dans la source pour révéler où une injection latente entre et se propage dans un agent, pas seulement si l'attaque réussit.

2026-06-13//6 min
AGENTS MEDIUM NEW

GitHub Action Claude Code : comment l'outil Read a fait fuiter des secrets CI/CD

Microsoft Threat Intelligence a découvert que l'outil Read de Claude Code Action contournait le scrub d'environnement de Bash pour lire /proc/self/environ, exposant l'ANTHROPIC_API_KEY du runner. Corrigé en v2.1.128.

2026-06-12//6 min
INFRASTRUCTURE CRITICAL NEW

Les serveurs MCP exposés, tremplins vers la prise de contrôle du cloud

Une injection de commande dans les serveurs MCP cloud (CVE-2026-5058/5059) permet d'atteindre le service de métadonnées, de voler le rôle IAM et de pivoter vers tout le compte cloud.

2026-06-12//6 min
GOVERNANCE MEDIUM NEW

OWASP State of Agentic AI Security 2026 : l'injection de prompt relie la plupart des incidents d'agents

Le rapport OWASP State of Agentic AI Security and Governance v2.01 (1er juin 2026) passe des menaces hypothétiques aux CVE et brèches documentées. L'injection de prompt couvre désormais six des dix catégories de risque agentique.

2026-06-12//6 min
DATA LEAK MEDIUM NEW

Fuite d'identifiants dans les skills d'agents LLM : une étude sur 17 000 skills

Une étude arXiv du 3 avril 2026 a analysé 17 022 skills d'agents et trouvé 520 fuites d'identifiants — 73,5 % via des logs de debug qui déversent les secrets directement dans le contexte du modèle.

2026-06-12//6 min
SUPPLY CHAIN MEDIUM NEW

Au-delà du tool poisoning : ce qu'un serveur MCP distant malveillant peut vraiment faire

Une étude du 21 mai 2026 cartographie toute la surface d'attaque des serveurs MCP distants malveillants sur ChatGPT, Claude Desktop et Gemini CLI — le filtrage côté hôte passe de 95 % à 50 % pour la même requête, et les attaques réussies ne sont presque jamais signalées.

2026-06-12//8 min
DEFENSE MEDIUM NEW

Injection par flux d'outils : pourquoi les défenses d'agents statiques cassent, et ce que corrige le verify-before-commit

Un papier de janvier 2026, VIGIL, recentre l'injection indirecte sur le flux d'outils — descriptions falsifiées et faux messages d'erreur — et montre que mieux un agent est aligné, plus il leur obéit.

2026-06-12//7 min
DEFENSE LOW NEW

Dans GitHub Agentic Workflows : une architecture de sécurité pour les agents CI/CD

GitHub Agentic Workflows est passé en préversion publique le 11 juin 2026 avec une conception « sécurité d'abord » : agents sans secret dans une prison chroot, pare-feu de workflow, écritures mises en attente puis vérifiées, et un job de détection de menaces. La réponse défensive à l'injection de prompt en CI/CD.

2026-06-12//8 min
DATA LEAK MEDIUM NEW

Inversion de prompt : l'inférence LLM distribuée fuit, une défense rigoureuse arrive

Les attaques par inversion de prompt reconstruisent jusqu'à 88,4 % des tokens d'entrée depuis les activations intermédiaires. Un papier soumis le 10 juin 2026 propose la première défense informationnelle.

2026-06-12//6 min
INFRASTRUCTURE CRITICAL NEW

L'entrée multimodale comme surface d'attaque : la RCE du décodeur vidéo de vLLM (CVE-2026-22778)

CVE-2026-22778 transforme une URL vidéo malveillante en exécution de code à distance sur les serveurs vLLM, en chaînant une fuite d'info PIL et un débordement de tas dans le décodeur JPEG2000 de FFmpeg. Corrigé en 0.14.1.

2026-06-12//7 min
DEFENSE MEDIUM NEW

TRUSTDESC : dériver les descriptions d'outils depuis le code pour désamorcer le tool poisoning

Un papier d'avril 2026 s'attaque au tool poisoning à la racine : générer la description d'un outil à partir de son implémentation plutôt que de faire confiance au texte fourni par l'auteur, neutralisant le poisoning implicite que les détecteurs ratent.

2026-06-12//6 min
RESEARCH MEDIUM NEW

Plus récent ne veut pas dire plus sûr : l'alignement de sécurité non monotone entre générations

Un papier de mai 2026 red-teamant quatre générations de Gemma révèle que le modèle intermédiaire était bien plus facile à jailbreaker que son prédécesseur et son successeur : la sécurité ne progresse pas en ligne droite.

2026-06-12//6 min
SUPPLY CHAIN MEDIUM NEW

RTK (CVE-2026-45792) : des filtres non fiables masquent un backdoor à la revue IA

Pillar Security a divulgué le 20 mai 2026 une faille dans RTK, un filtre d'optimisation de tokens pour Claude Code : un .rtk/filters.toml fourni par le dépôt pouvait retirer silencieusement un backdoor de la sortie des commandes avant que le modèle ne la voie. La cible, c'est la perception de l'agent, pas son exécution.

2026-06-12//6 min
AGENTS MEDIUM NEW

Blanchiment de causalité : quand un appel d'outil refusé fuite quand même

Un article d'avril 2026 montre que refuser l'appel d'outil d'un agent ne met pas fin à l'attaque : le refus lui-même est un canal d'information. Le suivi de teinte à plat le manque.

2026-06-12//8 min
GOVERNANCE LOW NEW

DeepMind et ses partenaires ouvrent un fonds de 10 M$ pour la sûreté multi-agents

Le 11 juin 2026, Google DeepMind, Schmidt Sciences, la Cooperative AI Foundation et l'ARIA ont ouvert un appel de 10 M$ pour fonder un champ de recherche sur la sûreté de millions d'agents IA en interaction.

2026-06-12//6 min
DEFENSE LOW NEW

Le Recuse Signal : un robots.txt pour les agents qui détiennent de vrais identifiants

Un article de juin 2026 propose un signal de « refus » in-band — émis via une bannière SSH ou un NOTICE PostgreSQL — qui demande poliment à un agent autonome de se retirer. En pilote, il a induit 100 % de recusal, mais un cadrage d'autorisation a fait repartir le modèle le plus capable.

2026-06-12//6 min
JAILBREAK MEDIUM NEW

CodeSpear : quand le décodage sous contrainte grammaticale devient une surface de jailbreak

Un papier arXiv du 10 juin 2026 montre que la fonctionnalité de fiabilité qui force la sortie de code d'un LLM à être syntaxiquement valide peut elle-même servir de jailbreak. Appliquer une grammaire de code anodine contourne les refus ; la défense CodeShield des auteurs répond par du code leurre.

2026-06-12//6 min
DEFENSE MEDIUM NEW

Le trilemme de la défense : pourquoi les wrappers anti-injection ne peuvent être complets

Une preuve vérifiée en Lean 4 (avril 2026) montre qu'aucun wrapper d'entrée continu et préservant l'utilité ne peut bloquer toute injection de prompt. Continuité, utilité et complétude ne peuvent coexister.

2026-06-12//7 min
RESEARCH MEDIUM NEW

Souveraineté mnésique : sécuriser tout le cycle de vie mémoire des agents

Une étude d'avril 2026 reformule la sécurité de la mémoire des agents LLM en un cycle de vie à six phases et montre que le domaine néglige l'oubli, la confidentialité et la dérive non adversariale.

2026-06-12//7 min
DATA LEAK MEDIUM NEW

L'injection continue de faire fuiter Copilot : deux nouveaux CVE de juin 2026

Le Patch Tuesday du 9 juin 2026 a livré CVE-2026-42824 et CVE-2026-47644 — deux failles de divulgation d'information de classe injection sur la surface Copilot, dans la lignée d'exfiltration ouverte par EchoLeak.

2026-06-12//6 min
INFRASTRUCTURE CRITICAL NEW

ChromaToast : une RCE pré-auth dans la base vectorielle ChromaDB

La divulgation de HiddenLayer du 18 mai 2026 (CVE-2026-45829, CVSS 10.0) montre que le serveur Python de ChromaDB charge le modèle HuggingFace de l'attaquant et exécute son code avant même de vérifier l'authentification.

2026-06-12//7 min
INDIRECT INJECTION MEDIUM NEW

DACSI : quand les documents récupérés falsifient les signaux de contrôle du système

Un papier du 8 juin 2026 nomme un mode de défaillance discret du RAG : du texte non fiable qui usurpe les signaux de métadonnées, de provenance et de politique. Pas besoin d'« ignore previous instructions » — la leçon : un label écrit dans un document est une donnée, pas une politique.

2026-06-12//6 min
DEFENSE MEDIUM NEW

AgentDyn : pourquoi les défenses anti-injection brillantes sur benchmark échouent en conditions réelles

AgentDyn, un benchmark ICML de février 2026, teste dix défenses anti-injection de premier plan sur des tâches d'agent dynamiques et ouvertes. Presque toutes sont soit non sûres, soit surdéfensives au point d'être inutilisables.

2026-06-12//7 min
RESEARCH MEDIUM NEW

StakeBench : qui paie vraiment quand un agent web se fait injecter ?

Un benchmark centré sur les parties prenantes (NTU, IBM Research, UIUC) montre que les agents web échouent sur tous les objectifs d'injection testés — et que le préjudice retombe souvent sur des tiers, pas sur l'utilisateur.

2026-06-12//6 min
SUPPLY CHAIN CRITICAL NEW

Ver Hades : la config d'agent de code piégée qui s'exécute à l'ouverture du dépôt

Le ver Hades commit des fichiers de configuration pour Claude Code, Gemini, Cursor et VS Code qui s'exécutent au démarrage de session ou à l'ouverture du dossier — transformant un dépôt cloné en voleur d'identifiants, sans aucune étape d'installation.

2026-06-11//8 min
INDIRECT INJECTION MEDIUM NEW

Le paradoxe de l'injection : quand une injection de prompt se retourne et efface une marque dans le RAG

Un préprint arXiv du 8 juin 2026 montre qu'une injection de prompt dans un document récupéré peut se retourner sur les modèles Claude alignés, faisant chuter une marque de 54 % à 0 % de recommandation — ouvrant une contre-attaque visant les concurrents.

2026-06-11//7 min
AGENTS MEDIUM NEW

Décomposition à contexte fracturé : jailbreaks par les failles de provenance

Un papier arXiv du 8 juin 2026 formalise le « trou de provenance » des agents outillés : un comportement nuisible assemblé à partir d'actions anodines réparties dans le temps, jusqu'à +28,3 points de réussite.

2026-06-11//6 min
GOVERNANCE MEDIUM NEW

Modèle de maturité agentique OWASP : ne restez pas dans les cases rouges

Le rapport State of Agentic AI d'OWASP (juin 2026) ajoute un modèle de maturité d'adoption : une grille à deux axes où l'autonomie des agents dépasse la gouvernance, créant des « cases rouges » que personne ne supervise.

2026-06-11//6 min
AGENTS MEDIUM NEW

SABER : les agents de code échouent à la sûreté opérationnelle même quand ils refusent les prompts malveillants

Un benchmark du 31 mai 2026 évalue les agents de code LLM sur l'état final d'un vrai dépôt, pas sur le refus de prompt. Même le meilleur modèle laisse une violation nuisible dans plus de la moitié des runs.

2026-06-11//6 min
AGENTS CRITICAL NEW

Contournement d'allowlist dans Cursor : les built-ins du shell empoisonnent l'environnement

CVE-2026-22708 permet à une injection de prompt d'utiliser des built-ins shell de confiance comme export et typeset pour empoisonner les variables d'environnement de Cursor, transformant une commande git ou python approuvée en exécution de code à distance. Corrigé en 2.3.

2026-06-11//6 min
DEFENSE MEDIUM NEW

La supervision a une capacité : quand plus d'approbations rend l'agent moins sûr

Un papier arXiv du 8 juin 2026 modélise le relecteur humain derrière la porte d'approbation d'un agent comme une ressource finie qui fatigue — et montre qu'escalader plus d'actions peut réduire la sécurité réelle et ouvrir une attaque par saturation.

2026-06-11//8 min
ADVERSARIAL MEDIUM NEW

HPAA : une typographie que l'humain lit mais que les LLM de modération ratent

Un article du 8 juin 2026 introduit les attaques adverses perceptibles par l'humain : un texte nuisible qui reste évident pour un lecteur, mais échappe à la modération par LLM grâce à une manipulation typographique.

2026-06-11//5 min
PROMPT INJECTION MEDIUM NEW

Plugins de chatbot web : comment des widgets non sécurisés amplifient l'injection de prompt

Une étude IEEE S&P 2026 portant sur 17 plugins de chatbot répartis sur plus de 10 000 sites révèle des historiques de conversation falsifiables (injections 3 à 8x plus fortes) et des outils de scraping qui mélangent contenu de confiance et contenu non fiable.

2026-06-11//6 min
RESEARCH LOW NEW

AuditBench : les LLM enquêteurs d'attaques sont des machines à faux positifs

Un benchmark de juin 2026 teste cinq LLM de pointe sur de vraies investigations de logs d'audit. Verdict : modèles trop soupçonneux, faux positifs en masse — et les petits modèles rivalisent avec les gros.

2026-06-11//6 min
DEFENSE MEDIUM NEW

CASA : un contrôle d'accès par tâche qui confronte chaque appel d'outil à l'intention réelle de l'utilisateur

Un papier arXiv du 4 mai 2026 propose Continuous Agent Semantic Authorization — une couche zero-trust qui extrait la tâche de l'utilisateur d'une conversation multi-tours et refuse les appels d'outils qui n'y correspondent pas.

2026-06-11//6 min
INFRASTRUCTURE CRITICAL NEW

LiteLLM CVE-2026-42271 : les endpoints de test MCP mènent à une RCE non authentifiée

Divulguée en avril comme une injection de commande authentifiée, la fonction d'aperçu MCP de LiteLLM devient une RCE non authentifiée une fois chaînée au contournement BadHost de Starlette — ajoutée au KEV de la CISA le 8 juin 2026.

2026-06-10//6 min
AGENTS MEDIUM NEW

Attaques par flux de contrôle mémoire : quand la mémoire pilote les outils d'un agent

Un papier de mars 2026 montre que la mémoire empoisonnée d'un agent ne corrompt pas seulement le contenu : elle détourne le flux de contrôle de la sélection d'outils, forçant des outils non voulus et des étapes sautées dans plus de 90 % des essais, d'une tâche à l'autre et longtemps après l'injection.

2026-06-10//8 min
SUPPLY CHAIN CRITICAL NEW

Injection via config Transformers : une RCE silencieuse qui contourne trust_remote_code

CVE-2026-4372, divulguée le 4 juin 2026, permet à un seul champ de config.json d'exécuter du code attaquant lors d'un simple from_pretrained() — en contournant trust_remote_code=False dans Hugging Face Transformers.

2026-06-10//8 min
DEFENSE MEDIUM NEW

ADR : détection et réponse pour agents MCP, éprouvé à l'échelle d'Uber

Un papier de mai 2026 signé Uber décrit un système type EDR pour agents MCP : télémétrie causale complète, détection à deux étages et red teaming hors ligne, déployé sur plus de 7 200 hôtes pendant dix mois.

2026-06-08//7 min
RESEARCH MEDIUM NEW

Oublié mais récupérable : pourquoi le désapprentissage des LLM fuit toujours

Plusieurs travaux de 2025-2026 montrent que les connaissances « désapprises » d'un LLM restent récupérables — par quantification, prompts adverses, et désormais via les traces de raisonnement. Traiter le désapprentissage comme un effacement est une erreur.

2026-06-08//7 min
DEFENSE MEDIUM NEW

ePCA : remplacer les garde-fous sémantiques d'agents par de la vérification formelle

Un article de mai 2026 propose ePCA, un garde-fou qui compile chaque action d'agent en logique du premier ordre et exécute une vérification SMT avant exécution, bloquant les étapes dangereuses sous forme de blocages logiques.

2026-06-08//7 min
AGENTS CRITICAL NEW

Serveurs MCP distants : 40 % sans authentification, OAuth cassé sur le reste

Une étude arXiv de mai 2026 a scanné 7 973 serveurs MCP distants : 40,55 % exposent leurs outils sans aucune authentification, et les 119 serveurs OAuth testés présentaient tous au moins une faille — 9 CVE attribuées.

2026-06-08//7 min
RESEARCH LOW NEW

Pourquoi il est difficile d'évaluer les agents de sécurité

Un position paper publié le 21 mai 2026 soutient que les classements utilisés pour noter les agents de sécurité sont discrètement faussés : le raisonnement adverse que l'on veut mesurer peut aussi casser le benchmark lui-même. Trois modes de défaillance, et comment évaluer honnêtement.

2026-06-08//6 min
DEFENSE LOW NEW

AgentTrust : filtrer les appels d'outils d'un agent avant leur exécution

Un préprint du 6 mai 2026 présente AgentTrust, une couche d'exécution qui inspecte chaque appel d'outil avant qu'il ne s'exécute et renvoie autoriser / avertir / bloquer / revoir — y compris sur les charges shell obfusquées.

2026-06-08//6 min
DEFENSE MEDIUM NEW

Détecter l'extraction de modèle en observant la fenêtre de trafic, pas les requêtes isolées

Un papier de juin 2026 montre qu'un simple test de distribution (MMD sur les embeddings de requêtes, calibré uniquement sur le trafic légitime) détecte les campagnes d'extraction noyées dans un trafic d'API mixte — 0,3 % de faux positifs, 100 % sur le trafic purement attaquant.

2026-06-08//6 min
DEFENSE MEDIUM NEW

La sécurité des agents est un problème de système : traiter le modèle comme non fiable

Un position paper de mai 2026 (Google, UCSD, UW–Madison) soutient que la sécurité des agents doit sortir du modèle pour passer dans le système : traiter le LLM comme un composant non fiable et imposer les invariants autour de lui.

2026-06-08//8 min
SUPPLY CHAIN MEDIUM NEW

Empoisonnement séquentiel : répartir une porte dérobée sur les étapes du post-entraînement

Un papier du 3 juin 2026 montre qu'un poison réparti entre données SFT et préférences — négligeable à chaque étape isolée — se combine en une porte dérobée fonctionnelle. Les audits par étape créent une « illusion de l'attaquant unique ».

2026-06-08//7 min
AGENTS MEDIUM NEW

Cinq attaques sur x402 : quand les agents IA paient, les coutures inter-couches fuient

Un papier du 12 mai 2026 casse formellement x402, le protocole de paiement agentique fondé sur HTTP 402. Cinq attaques sur le règlement, le rejeu, la couche web et la découverte — un paiement rejoué a produit 248 accès sur un endpoint en production.

2026-06-08//7 min
OFFENSIVE AI MEDIUM NEW

Comment l'IA agentique comprime le cycle de l'attaque

Un article arXiv de mai 2026 modélise comment l'IA agentique réduit le coût de chaque étape d'une attaque — de la reconnaissance à la post-exploitation — comprimant la kill chain et redéfinissant les priorités défensives.

2026-06-08//6 min
RESEARCH MEDIUM NEW

Pourquoi les développeurs d'agents IA indépendants passent à côté des risques de sécurité

Une étude arXiv de juin 2026 sur des développeurs d'agents IA indépendants révèle un angle mort centré utilisateur : on se concentre sur les contenus nuisibles en négligeant l'injection de prompt, l'exfiltration de données et les flux transfrontaliers.

2026-06-08//6 min
ADVERSARIAL MEDIUM NEW

SlotGCG : la position du token adverse, pas seulement son contenu, conditionne le jailbreak

Un papier de juin 2026 montre que les jailbreaks de type GCG gagnent ~14 % d'efficacité quand les tokens adverses sont placés à des emplacements corrélés à l'attention — et conservent 42 % de succès face au filtrage d'entrée.

2026-06-08//6 min
AGENTS MEDIUM NEW

L'outil shell de MS-Agent : une denylist regex transforme l'injection de prompt en RCE

CVE-2026-2256 permet à du contenu malveillant de pousser MS-Agent (ModelScope) à exécuter des commandes système. La cause racine est un anti-pattern connu : protéger un outil shell par une denylist regex plutôt que par une allowlist.

2026-06-08//6 min
AGENTS MEDIUM NEW

OWASP ASI02 : quand un agent retourne ses propres outils contre vous

Tool Misuse & Exploitation est le risque n°2 du Top 10 OWASP pour les applications agentiques 2026. Le danger n'est pas qu'un agent gagne de nouveaux outils — c'est qu'il détourne ceux qu'il possède déjà : sur-privilège, descripteurs empoisonnés, chaînage non maîtrisé.

2026-06-08//6 min
OFFENSIVE AI MEDIUM NEW

VR de firmware mains libres : un agent LLM rétro-ingénie un interphone OT de bout en bout

Le 2 juin 2026, Claroty Team82 a lancé Claude Opus 4.6 avec un serveur MCP Ghidra contre le firmware d'un interphone Zenitel et a retrouvé un ensemble de CVE connues en moins de dix minutes — un aperçu de la recherche de vulnérabilités firmware devenue commodité.

2026-06-08//6 min
RESEARCH MEDIUM NEW

Au-delà de la « sécurité de surface » : l'injection en milieu de séquence fait déraper les LLM alignés

Un papier arXiv du 3 juin 2026 montre que l'alignement de sécurité peut être détourné non seulement aux premiers tokens, mais à n'importe quelle étape de génération — et que les directions de refus dans les états cachés ne prédisent pas la robustesse.

2026-06-08//6 min
DEFENSE LOW NEW

Need to Know : réécriture de requêtes par intégrité contextuelle

Un papier arXiv du 2 juin 2026 reformule la réécriture de requêtes respectueuse de la vie privée comme un problème d'intégrité contextuelle : ne transmettre une donnée au LLM cloud que si la tâche en a besoin, pas parce qu'un type de PII a été reconnu.

2026-06-07//6 min
DEFENSE LOW NEW

Membrane : une mémoire de sécurité contrastive qui adapte les garde-fous sans réentraînement

Un papier arXiv du 4 juin 2026 propose Membrane, un garde-fou auto-évolutif qui associe chaque attaque bloquée à une requête bénigne quasi identique, ramenant le sur-refus à 7-14 % tout en dominant le F1 sur six jailbreaks.

2026-06-07//6 min
DEFENSE LOW NEW

Lockdown Mode d'OpenAI : couper la voie d'exfiltration du prompt injection

Le 6 juin 2026, OpenAI a étendu Lockdown Mode aux comptes ChatGPT personnels et Business en libre-service : un réglage déterministe qui désactive les canaux sortants utilisés pour exfiltrer des données via prompt injection.

2026-06-07//6 min
INDIRECT INJECTION MEDIUM NEW

Decision Hijacking : injecter le LLM qui classe vos résultats de recherche

Une série de travaux 2025-2026 montre que lorsqu'un LLM reclasse des candidats de recherche ou de RAG, quelques lignes injectées dans un seul document suffisent à le propulser en tête — la qualité du classement s'effondre de plus de 60 points NDCG, et les modèles les plus puissants sont les plus vulnérables.

2026-06-07//7 min
DEFENSE MEDIUM NEW

THRD : une défense temporelle sans réentraînement contre les jailbreaks multi-tours

Un papier de juin 2026 soutient qu'un jailbreak multi-tours doit être jugé sur l'ensemble de la conversation, pas tour par tour. THRD agrège le risque dans le temps et ramène le taux de succès des attaques à 0,2–4 %, sans réentraînement.

2026-06-07//7 min
SUPPLY CHAIN MEDIUM NEW

MetaBackdoor : un déclencheur de backdoor fondé sur la longueur, invisible dans l'entrée

Un papier de mai 2026 de Microsoft et de l'Institute of Science Tokyo implante une backdoor dont le déclencheur est la longueur de l'entrée, pas son texte. Le prompt paraît propre, les filtres de contenu ne voient rien, et 90 exemples empoisonnés suffisent.

2026-06-07//7 min
INFRASTRUCTURE CRITICAL NEW

L'endpoint de build public de Langflow : RCE non authentifiée armée en 20 heures

CVE-2026-33017 transforme l'endpoint de build public de Langflow en exécution de code à distance non authentifiée. Divulguée le 17 mars 2026, elle était exploitée dans la nature en 20 heures — avant tout PoC public.

2026-06-07//6 min
DEFENSE LOW NEW

Deux pièges méthodologiques qui gonflent les scores des détecteurs d'injection de prompt

Un préprint arXiv du 1ᵉʳ juin 2026 montre que la plupart des benchmarks de détecteurs d'injection de prompt et de jailbreak reposent sur un réglage de seuil par jeu de données et des points de fonctionnement non divulgués — deux habitudes qui gonflent discrètement la précision annoncée.

2026-06-07//6 min
DEFENSE LOW NEW

AgentVisor : un patron type hyperviseur OS qui audite chaque appel d'outil

Un article arXiv du 27 avril 2026 emprunte l'idée de l'hyperviseur OS pour défendre les agents LLM outillés : un « visor » de confiance audite chaque appel d'outil et est architecturalement aveugle au contenu non fiable.

2026-06-07//8 min
DEFENSE MEDIUM NEW

Taxonomie v2.0 des modes de défaillance agentiques de Microsoft : le contournement zéro-clic du humain dans la boucle

La taxonomie v2.0 de l'AI Red Team de Microsoft (4 juin 2026) ajoute sept modes de défaillance agentiques et désigne le contournement du humain dans la boucle comme le plus exploité — y compris des chaînes zéro-clic partant d'une seule entrée externe.

2026-06-07//8 min
SUPPLY CHAIN MEDIUM NEW

Back-Reveal : exfiltration de données par les propres appels d'outils d'un agent piégé

Un agent fine-tuné porte un déclencheur caché. Sur un signal anodin, il lit votre mémoire de session et l'expédie déguisée en simple appel de recherche — sans injection, sans outil malveillant. Article daté du 7 avril 2026.

2026-06-07//7 min
AGENTS MEDIUM NEW

VIPER-MCP : 67 CVE issues de failles de type taint sur 40 000 serveurs MCP

Un papier arXiv du 20 mai 2026 a audité 39 884 dépôts de serveurs MCP open source, confirmé 106 zero-days de bout en bout et obtenu 67 identifiants CVE. L'histoire, c'est le motif : une entrée d'agent non fiable qui atteint des sinks shell, réseau et fichiers.

2026-06-05//7 min
RESEARCH MEDIUM NEW

Optimus : noter les jailbreaks au-delà du binaire révèle un régime furtif optimal

Un paper arXiv du 9 mai 2026 soutient que le taux de réussite binaire masque les jailbreaks les plus à craindre. Sa métrique Optimus note les prompts sur la similarité et la nocivité, et expose une bande « furtive optimale » où l'ASR s'effondre à zéro.

2026-06-05//7 min
GOVERNANCE MEDIUM NEW

Aucun labo ne mesure le prompt injection de la même façon

Une comparaison du 1er juin 2026 des divulgations prompt injection d'Anthropic, OpenAI, Google et Meta montre qu'aucun labo ne partage de métrique, de surface ni de définition du succès — leurs chiffres ne sont pas comparables.

2026-06-05//6 min
INDIRECT INJECTION MEDIUM NEW

AgentRedBench : l'injection indirecte dans les agents SaaS est un défaut d'autorisation

AgentRedBench (juin 2026) red-team des agents LLM qui lisent des outils SaaS comme Gmail et Jira. Sans garde-fou, le taux de réussite des attaques va de 32 % à 81 % sur huit modèles de pointe, avant qu'un classifieur de réponses d'outils ne le réduise.

2026-06-05//7 min
OFFENSIVE AI MEDIUM NEW

Vers IA adaptatifs : quand le malware embarque son propre LLM local

Un papier de l'Université de Toronto (juin 2026) démontre un ver qui exécute des LLM open-weight sur les machines qu'il compromet, adapte son exploit à chaque cible et arme des advisories publiés après la date de coupure du modèle.

2026-06-05//8 min
AGENTS CRITICAL NEW

CVE-2026-45497 : une injection de commande transforme Microsoft 365 Copilot en surface RCE

Le 4 juin 2026, le MSRC a publié CVE-2026-45497, une injection de commande dans Microsoft 365 Copilot classée en exécution de code à distance, avec un changement de portée franchissant la frontière du service. Corrigée côté serveur.

2026-06-05//6 min
SUPPLY CHAIN MEDIUM NEW

trust_remote_code=False n'est pas une frontière : la RCE récurrente au chargement de modèle dans vLLM

CVE-2026-27893 (divulguée le 27 mars 2026) est le troisième contournement de trust_remote_code dans vLLM. Deux fichiers de modèle codent en dur trust_remote_code=True, annulant silencieusement le choix de l'opérateur et ouvrant une RCE depuis un dépôt de modèle malveillant.

2026-06-05//6 min
AGENTS MEDIUM NEW

Quand un argument d'outil MCP devient un intent Android : les sinks de mobile-mcp

CVE-2026-35394 permet à une URL contrôlée par le modèle de déclencher des intents Android arbitraires via l'outil mobile_open_url de mobile-mcp. Couplée à une CVE jumelle de path traversal, elle révèle un motif : des arguments d'outil MCP qui atteignent des sinks sans validation.

2026-06-05//7 min
DEFENSE MEDIUM NEW

L'agent qui écrit ses propres logs : pourquoi les journaux d'audit auto-déclarés ne sont pas fiables

Si un agent compromis produit lui-même son journal d'activité, il peut omettre, altérer ou fabriquer ce qu'il a fait. Trois travaux de juin 2026 — Notarized Agents (arXiv), un draft IETF sur l'audit trail des agents, et SCITT — convergent vers la même solution : déplacer la frontière de confiance hors de l'agent.

2026-06-05//6 min
SUPPLY CHAIN MEDIUM NEW

Les fichiers GGUF sont des entrées non fiables : les RCE récurrentes du parseur de llama.cpp

CVE-2026-33298 (mars 2026) et une divulgation oss-sec du 15 mai 2026 montrent que le parseur GGUF de llama.cpp enchaîne les corruptions de tas par dépassement d'entier : charger un modèle piégé peut suffire à exécuter du code.

2026-06-05//6 min
RESEARCH MEDIUM NEW

MPBench : une taxonomie systématique de l'empoisonnement mémoire des agents LLM

Une étude arXiv du 3 juin 2026 cartographie quatre canaux d'écriture mémoire, neuf faiblesses structurelles et six classes d'attaque — et montre que les défenses anti-injection ne couvrent pas l'empoisonnement mémoire.

2026-06-05//6 min
DEFENSE MEDIUM NEW

Quand les défenses par embedding échouent dans les systèmes multi-agents LLM

Un papier arXiv du 1er mai 2026 montre que les détecteurs qui écartent un agent malveillant via l'embedding de ses messages s'effondrent face à un texte rendu quasi-bénin — et propose les signaux de confiance par token comme remplacement plus robuste.

2026-06-05//6 min
SUPPLY CHAIN MEDIUM NEW

Injection AGENTS.md : une dépendance piégée peut réécrire en silence les ordres de votre agent de code

Un rapport de la NVIDIA AI Red Team du 20 avril 2026 montre qu'une dépendance malveillante peut déposer un AGENTS.md forgé au build, écraser la consigne du développeur et demander à OpenAI Codex de masquer la modification dans la pull request.

2026-06-04//7 min
DATA LEAK MEDIUM NEW

Contagion sociale : les agents LLM divulguent des données privées en environnement multi-agents

Une étude de mai 2026 simulant des milliers d'agents LLM montre que la fuite de données est socialement contagieuse : un agent divulgue ~8x plus après l'avoir vu faire par un pair, et les consignes de confidentialité réduisent sans éliminer le phénomène.

2026-06-04//7 min
AGENTS CRITICAL NEW

Vers auto-propagatifs d'agents et défense par ré-entrée temporelle

Un papier de mai 2026 formalise comment l'état persistant d'un agent permet à une charge d'injection de se réécrire dans le contexte du LLM, de se propager entre agents sans clic, et propose RTW-A — défense prouvée par un théorème de non-propagation.

2026-06-04//7 min
DEFENSE MEDIUM NEW

PISmith : le red teaming par RL adaptatif casse encore les défenses anti-injection

Un papier de mars 2026 entraîne un modèle attaquant par apprentissage par renforcement pour éprouver les défenses anti-injection en boîte noire — et 8 défenses de pointe tombent, y compris sur AgentDojo et InjecAgent.

2026-06-04//6 min
INFRASTRUCTURE CRITICAL NEW

Le broker ZMQ de SGLang : RCE non authentifiée par désérialisation pickle

Trois CVE divulguées le 12 mars 2026 transforment les appels pickle.loads() de SGLang en exécution de code à distance non authentifiée. Le correctif est arrivé en v0.5.10 — mais la vraie leçon, c'est que pickle sur une socket réseau est une RCE par conception.

2026-06-04//7 min
AGENTS MEDIUM NEW

Tool poisoning sur 7 clients MCP : une comparaison de posture de sécurité

Une étude empirique de mars 2026 teste quatre attaques de tool poisoning contre Claude Desktop, Claude Code, Cursor, Cline, Continue, Gemini CLI et Langflow — et constate que l'essentiel de la protection vient du modèle, pas du client.

2026-06-04//7 min
INDIRECT INJECTION MEDIUM NEW

Empoisonnement de description : le canal d'agent que vos benchmarks ne testent pas

Une démo AWS Bedrock AgentCore de mai 2026 et un paper arXiv de juin 2026 convergent sur le même angle mort : les descriptions d'outils, lues avant chaque appel, sont un canal d'injection que les contrôles d'infra et les benchmarks à un seul chiffre ignorent.

2026-06-04//6 min
DEFENSE MEDIUM NEW

La recherche hybride BM25 + vecteurs fait tomber l'empoisonnement RAG de 38 % à 0 %

Un préprint arXiv du 10 mars 2026 montre qu'ajouter du BM25 épars à la recherche dense bloque toute une classe d'empoisonnement de corpus RAG optimisé par gradient — sans toucher au LLM.

2026-06-04//7 min
DEFENSE MEDIUM NEW

AgentShield : démasquer les agents compromis avec des honeytokens et des outils-leurres

Un papier de mai 2026 applique l'ingénierie de la déception aux agents LLM outillés : faux outils, fausses identifiants et listes blanches de paramètres sur lesquels un agent détourné trébuche. Détection annoncée de 90,7 à 100 % des attaques réussies, sans fausse alerte.

2026-06-04//6 min
DEFENSE MEDIUM NEW

OWASP Agent Memory Guard : une couche d'exécution contre l'empoisonnement mémoire des agents

Relayé par Help Net Security le 1er juin 2026, Agent Memory Guard est la première implémentation de référence OWASP pour ASI06 : une couche prête à l'emploi qui filtre chaque lecture et écriture mémoire d'un agent selon une politique YAML.

2026-06-04//7 min
DEFENSE MEDIUM NEW

Détecter l'exfiltration d'identifiants par les agents LLM avant le token de sortie

Publié le 2 juin 2026, un papier arXiv détecte les fuites d'identifiants d'un agent avant tout token de sortie — en combinant sondes d'activation, honeytokens calibrés et comptabilité de fuite multi-tour.

2026-06-04//7 min
OFFENSIVE AI MEDIUM NEW

Acteurs malveillants IA cartographiés sur MITRE ATT&CK : le score ARiES et ce qu'il casse

Le rapport Anthropic du 3 juin 2026 cartographie un an de cyberattaques assistées par IA sur MITRE ATT&CK. Le constat pour les défenseurs : la sophistication, le nombre de techniques et l'interface ne prédisent plus le risque — l'orchestration, si.

2026-06-04//7 min
AGENTS MEDIUM NEW

AIRQ évalue 100 agents IA en production : 98 % cumulent la triade fatale

L'AI Risk Quadrant d'Adversa AI (juin 2026) note 100 agents commerciaux sur surface d'attaque, rayon d'impact et défenses. Seuls 11 % sont bien défendus ; l'exécution d'outils explique à elle seule 76 % du rayon d'impact.

2026-06-04//7 min
GOVERNANCE MEDIUM NEW

Décret américain sur la sécurité de l'IA : un guichet de vulnérabilités et une revue des modèles de pointe

Signé le 2 juin 2026, le décret américain sur l'innovation et la sécurité de l'IA crée un guichet fédéral de vulnérabilités IA et une revue volontaire de 30 jours avant publication des « modèles de pointe couverts ».

2026-06-03//6 min
AGENTS CRITICAL NEW

CVE-2026-30615 : une prompt injection réécrit la config MCP de Windsurf en RCE

L'avis OX Security du 15 avril 2026 montre comment du contenu malveillant peut faire enregistrer à l'IDE Windsurf un serveur MCP STDIO hostile et exécuter des commandes — sans le moindre clic. La classe touche plusieurs agents de code, mais le CVE est pour Windsurf.

2026-06-03//6 min
AGENTS MEDIUM NEW

La system card d'Opus 4.8 chiffre l'injection de prompt sur agent navigateur : 31,5 %

La system card de Claude Opus 4.8 (28 mai 2026) rapporte un taux de détournement pré-garde-fous de 31,5 % pour son agent navigateur — la seule métrique d'injection de prompt publiée par un grand laboratoire ce printemps.

2026-06-03//7 min
DEFENSE LOW NEW

Agent Threat Rules : un « Sigma pour agents IA » — et ce que ses chiffres de rappel avouent

ATR propose des règles de détection YAML ouvertes pour les attaques d'agents, déjà en production chez Microsoft, Cisco et Gen Digital. Ses propres benchmarks montrent pourquoi la détection par regex est une couche, pas un périmètre.

2026-06-03//6 min
INDIRECT INJECTION MEDIUM NEW

ChatInject : forger les balises de rôle du chat template pour contourner la hiérarchie d'instructions

Un article d'ICLR 2026 montre qu'envelopper une charge d'injection indirecte dans les tokens du chat template d'un modèle forge un rôle prioritaire et fait passer le taux de succès de 5 % à 32 % sur AgentDojo, et jusqu'à 52 % en multi-tour.

2026-06-03//8 min
PROMPT INJECTION MEDIUM NEW

ASPI : demander une clarification élargit la surface d'injection

Un benchmark arXiv du 17 mai 2026 montre que lorsqu'un agent s'interrompt pour demander une précision à l'utilisateur, le taux de réussite des injections passe de moins de 2 % à plus de 34 % sur o3 et Gemini-3-Flash.

2026-06-03//6 min
DEFENSE LOW NEW

SnapGuard : détecter l'injection dans ce que l'agent voit, pas dans ce qu'il parse

Un papier d'avril 2026 propose un détecteur léger pour les agents web fondés sur captures d'écran, là où les garde-fous textuels sont aveugles. Il lit les pixels rendus — stabilité des gradients et texte à polarité inversée — en 1,81 s par page.

2026-06-03//6 min
RESEARCH LOW NEW

CyBiasBench : les agents LLM offensifs tentent toujours les mêmes attaques

Un benchmark de mai 2026 a journalisé 630 sessions d'attaque et montre que les agents LLM en scénario cyber offensif se concentrent sur un petit sous-ensemble de familles d'attaques — quel que soit le prompt. C'est le biais, pas la compétence, qui dicte leurs choix.

2026-06-03//6 min
AGENTS MEDIUM NEW

Propagation d'autorisation : la faille des agents que les défenses anti-injection ne résoudront pas

Un papier de Krti Tallam du 6 mai 2026 décrit un problème propre aux systèmes multi-agents — la propagation d'autorisation — qui subsiste même avec une défense anti-injection parfaite : délégation transitive, inférence par agrégation, validité temporelle.

2026-06-03//7 min
RESEARCH MEDIUM NEW

Recadrage de l'objectif : le seul élément du prompt qui pousse les agents LLM à exploiter une faille plantée

Une étude arXiv du 6 avril 2026 a mené ~10 000 essais sur sept modèles. La plupart des tactiques de « manipulation » n'ont rien produit — seul le recadrage de l'objectif, du type « vous résolvez une énigme », a poussé les agents à exploiter la faille.

2026-06-03//6 min
OFFENSIVE AI MEDIUM NEW

CAESAR : des agents LLM coordonnés dépassent le plafond de raisonnement d'un modèle seul

Un article arXiv du 9 mai 2026 montre que scinder un attaquant LLM en cinq rôles typés surpasse un agent unique sur 25 épreuves CTF et quatre modèles — le gain vient de la structure de coordination, pas de la capacité brute.

2026-06-03//6 min
AGENTS MEDIUM NEW

ClawTrojan : l'injection stockée devient une porte dérobée persistante d'agent

Un paper arXiv du 29 mai 2026 montre qu'une injection cachée dans un fichier peut être stockée par un agent local puis exécutée plus tard — 95,5 % de réussite là où l'injection mono-tour frôle zéro.

2026-06-03//6 min
DEFENSE MEDIUM NEW

DataShield : quand un fine-tuning anodin érode la sûreté d'un modèle

Un papier arXiv du 29 mai 2026 montre qu'affiner un LLM aligné sur des données inoffensives dégrade quand même sa sûreté, et propose DataShield pour repérer les échantillons en cause avant l'entraînement.

2026-06-03//6 min
AGENTS CRITICAL NEW

Langroid SQLChatAgent : de l'injection prompt-vers-SQL à la RCE (CVE-2026-25879)

Divulguée le 1er juin 2026, la CVE-2026-25879 (CVSS 9.8) permet à un agent SQL victime d'injection de prompt d'exécuter des primitives comme COPY FROM PROGRAM, transformant un chatbot en exécution de code sur l'hôte de la base.

2026-06-02//7 min
AGENTS CRITICAL NEW

Il a suffi de demander : l'assistant IA de Meta et les prises de contrôle Instagram

Le week-end des 30–31 mai 2026, des attaquants ont pris le contrôle de comptes Instagram en vue en demandant simplement au bot de support IA de Meta de relier une nouvelle adresse e-mail. Aucune injection de prompt — juste une agentivité excessive.

2026-06-02//6 min
AGENTS MEDIUM NEW

Agents fragiles : l'injection indirecte survit aux appels d'outils multi-étapes

Un papier du 4 avril 2026 teste 6 défenses contre 4 vecteurs d'injection indirecte sur 9 modèles, en agent multi-étapes — les injections avancées les contournent presque toutes, et certaines mitigations de surface se retournent contre la défense.

2026-06-02//6 min
AGENTS MEDIUM NEW

Arrêtez de fixer le prompt : détourner le raisonnement et la mémoire d'un agent

Un papier d'avril 2026, JailAgent, pousse un agent à des appels d'outils malveillants sans toucher au prompt utilisateur — en perturbant sa trajectoire de raisonnement et sa récupération mémoire. Le prompt n'a jamais été toute la surface d'attaque.

2026-06-02//6 min
DATA LEAK MEDIUM NEW

Trojan Hippo : des charges dormantes dans la mémoire d'un agent exfiltrent vos données

Un papier arXiv du 3 mai 2026 montre qu'un seul e-mail piégé suffit à implanter dans la mémoire d'un agent une charge dormante qui ne s'active que lorsque vous parlez de finance ou de santé — puis exfiltre ces données, jusqu'à 100 % de réussite.

2026-06-02//7 min
DEFENSE LOW NEW

Cessez d'évaluer les défenses anti-jailbreak au seul taux de réussite

Un papier IEEE S&P de mai 2026 soutient que le taux de réussite d'attaque — la métrique par défaut du domaine — masque le comportement réel des défenses anti-jailbreak. Son Security Cube les évalue sur plusieurs axes à la fois.

2026-06-02//6 min
RESEARCH MEDIUM NEW

LASM : une carte en 7 couches des angles morts de la défense des agents

Une étude de 58 pages révisée le 6 mai 2026 réorganise la sécurité des agents IA par couche et par échelle de temps, sur 116 papers. La carte révèle où les attaques sont documentées mais où défenses et benchmarks n'existent tout simplement pas encore.

2026-06-02//6 min
AGENTS MEDIUM NEW

Sampling MCP : comment un serveur malveillant abuse du canal LLM inversé

La fonction de sampling de MCP permet à un serveur de demander une complétion au modèle du client. Unit 42 a montré (déc. 2025) comment un serveur malveillant en fait un canal d'appels d'outils furtifs, de détournement de conversation et de vol de calcul.

2026-06-02//7 min
INDIRECT INJECTION MEDIUM NEW

IPI Arena : 272 000 attaques, aucun modèle d'agent épargné

L'Indirect Prompt Injection Arena de Gray Swan, jugée avec l'UK AISI et l'US CAISI, a lancé plus de 272 000 attaques contre 13 modèles de pointe. Tous ont été détournés — et un seul gabarit universel en a cassé neuf.

2026-06-02//7 min
AGENTS CRITICAL NEW

TrustFall : les réglages MCP du projet transforment le clic de confiance en RCE

TrustFall (Adversa AI, 7 mai 2026) montre que quatre CLI de codage agentiques démarrent automatiquement les serveurs MCP définis par le projet dès que le développeur accepte l'invite de confiance du dossier — un appui de touche sur le poste, zéro clic en CI.

2026-06-02//8 min
INFRASTRUCTURE CRITICAL NEW

LightLLM CVE-2026-26220 : du pickle sur un WebSocket que le serveur force sur le réseau

CVE-2026-26220 (divulguée le 15 février 2026) place pickle.loads() sur deux endpoints WebSocket non authentifiés du mode prefill-decode de LightLLM — et le serveur refuse de se lier à localhost, donc la surface est toujours distante.

2026-06-02//6 min
DEFENSE LOW NEW

Séparateurs dynamiques : durcir le Polymorphic Prompt Assembling contre l'injection

Un papier arXiv du 28 mai 2026 corrige une faille de « rayon d'impact » du Polymorphic Prompt Assembling en générant un séparateur SHA-256 unique par requête, faisant chuter le taux de succès d'un payload de 0,88 à 0,38.

2026-06-02//6 min
INDIRECT INJECTION MEDIUM NEW

Silent Egress : l'injection implicite fait fuiter vos données via les aperçus d'URL

Une étude eBay (arXiv, 25 février 2026) montre qu'un agent qui prévisualise automatiquement les URL peut être amené à exfiltrer son contexte d'exécution par appels d'outils — P(egress)≈0,89, et 95 % des fuites laissent la réponse visible parfaitement anodine.

2026-06-02//8 min
OFFENSIVE AI CRITICAL NEW

L'agent aux commandes : détecter une post-exploitation pilotée par LLM

Le 10 mai 2026, Sysdig a capté sa première intrusion où un agent LLM pilotait la post-exploitation en temps réel — de CVE-2026-39987 sur marimo à un dump PostgreSQL complet en moins d'une heure. L'indice médico-légal est la forme des commandes.

2026-06-01//6 min
AGENTS CRITICAL NEW

Flowise CVE-2026-40933 : importer un chatflow partagé suffit pour une RCE

L'analyse d'Obsidian Security du 28 mai 2026 montre comment le nœud Custom MCP de Flowise transforme une config MCP stdio en exécution de code côté serveur — et comment le simple import d'un chatflow partagé peut la déclencher, sans sauvegarde ni exécution.

2026-06-01//6 min
PROMPT INJECTION MEDIUM NEW

Prompt injection dans la nature : attaques cachées dans le tri de CV par LLM

Une étude USENIX Security 2026 portant sur 196 682 CV réels révèle qu'environ 1 % contiennent des injections de prompt cachées — et plus de 90 % sont des « injections de données » invisibles, pas les instructions explicites que cherchent les détecteurs actuels.

2026-06-01//6 min
RED TEAM MEDIUM NEW

Red teaming agentique : un opérateur, 674 attaques en trois heures

Un papier de mai 2026 de Dreadnode emballe la boîte à outils du red team IA dans un agent qui choisit les attaques, les exécute et note les résultats tout seul — des semaines compressées en heures. Le vrai sujet : ce que ça change pour votre programme d'évaluation.

2026-06-01//7 min
AGENTS CRITICAL NEW

CrewAI : un repli silencieux du bac à sable transforme l'injection de prompt en RCE (VU#221883)

Quatre failles CrewAI permettent de chaîner injection de prompt, RCE, SSRF et lecture de fichiers via un Code Interpreter qui sort silencieusement de Docker. La mise à jour CERT/CC du 20 mai 2026 confirme le correctif complet.

2026-06-01//6 min
DEFENSE LOW NEW

Le triangle des compromis : défendre un tuteur LLM contre l'injection de prompt

Un benchmark de mai 2026 sur les défenses anti-injection pour tuteurs pédagogiques LLM chiffre une vérité gênante : aucun garde-fou ne gagne à la fois sur la robustesse, l'usabilité et la latence.

2026-06-01//7 min
DEFENSE LOW NEW

Les jailbreaks laissent une trace : les détecter dans les activations internes des LLM

Un article de février 2026 et son prolongement de mars 2026 montrent qu'un prompt de jailbreak grave une signature distinctive dans les activations cachées du modèle — permettant une détection à l'inférence, sans fine-tuning ni modèle juge auxiliaire.

2026-06-01//6 min
AGENTS MEDIUM NEW

Attaques par épuisement de tokens : déni de service économique via les chaînes d'outils des agents

Deux papers de 2026 montrent qu'un outil ou un skill malveillant peut entraîner un agent LLM dans de longues boucles d'appels d'outils, multipliant le coût en tokens par 6 à 658× tout en renvoyant la bonne réponse — une variante furtive de l'Unbounded Consumption de l'OWASP.

2026-06-01//7 min
DEFENSE MEDIUM NEW

Attribution causale : une défense émergente contre l'injection indirecte

Un ensemble de papers début 2026 — CausalArmor et AttriGuard — défend les agents à outils en demandant quelles actions sont causalement provoquées par du contenu non fiable plutôt que par l'utilisateur. Tour d'horizon de la défense par attribution causale.

2026-06-01//7 min
RESEARCH MEDIUM NEW

LITMUS : quand l'agent dit non mais que le fichier est déjà supprimé

Un benchmark du 11 mai 2026 mesure les jailbreaks comportementaux des agents LLM dans de vrais environnements OS — et constate que même Claude Sonnet 4.6 exécute 40,6 % des opérations à haut risque, parfois en les refusant verbalement.

2026-06-01//8 min
SIDE CHANNEL MEDIUM NEW

Vol de prompt par le temps : canaux auxiliaires du cache de préfixe en LLM mutualisé

Le cache de préfixe partagé accélère les API LLM — et fuit les prompts. En chronométrant le premier token, un attaquant reconstitue le prompt d'un autre locataire. Un article de mars 2026 défend sans sacrifier la performance.

2026-06-01//7 min
RESEARCH MEDIUM NEW

AgentSecBench : dans un agent LLM, le flux de données n'est pas l'autorité

Publié le 25 mai 2026, AgentSecBench formalise la sécurité des agents comme une non-interférence et teste six classes de défense. Le constat : le texte du prompt ne fait que décrire une frontière ; seules la provenance, la restriction de capacités et la validation de sortie l'imposent.

2026-06-01//6 min
OFFENSIVE AI MEDIUM NEW

Zero-days écrits par IA : comment le GTIG a identifié le premier exploit bâti par un modèle

Le 11 mai 2026, le GTIG de Google a divulgué le premier zero-day qu'il estime conçu par IA — un script de contournement de 2FA trahi par un score CVSS halluciné et des docstrings de manuel. Voici comment lire ces indices.

2026-06-01//6 min
AGENTS CRITICAL NEW

SymJack : une copie de fichier approuvée devient RCE dans six agents de codage IA

Adversa AI a publié le 26 mai 2026 un schéma de détournement par lien symbolique qui transforme une simple commande shell en réécriture de la config et en RCE sur l'hôte, à travers Claude Code, Cursor, Gemini, Antigravity, Copilot, Grok Build et Codex CLI.

2026-05-30//6 min
SUPPLY CHAIN MEDIUM NEW

Slopsquatting en 2026 : 127 noms de paquets que les cinq LLM frontières hallucinent à l'identique

Une réplication arXiv du 16 mai 2026 de l'étude USENIX Security '25 sur le slopsquatting montre que les taux d'hallucination baissent sur les modèles frontières — mais identifie 127 paquets fantômes inventés à l'identique par tous les modèles testés, soit une surface d'attaque supply-chain agnostique du modèle.

2026-05-29//7 min
AGENTS MEDIUM NEW

Blindfold : des jailbreaks au niveau action contournent les défenses sémantiques des LLM embarqués

Un papier SenSys '26 (11–14 mai 2026) présente Blindfold, un framework automatisé qui jailbreake les LLM embarqués en décomposant un but malveillant en actions individuellement anodines — jusqu'à 53 % de gain d'attaque sur un bras robotique 6-DoF réel.

2026-05-29//7 min
INFRASTRUCTURE CRITICAL NEW

MCPwn (CVE-2026-33032) : un endpoint MCP de nginx-ui livre le serveur web

Un endpoint MCP non authentifié dans nginx-ui ≤ 2.3.3 permet à n'importe quel attaquant réseau de réécrire les configs nginx et de redémarrer le service. CVSS 9.8, divulgation publique le 15 avril 2026, exploitation en environnement réel observée quelques heures après le correctif.

2026-05-29//7 min
RESEARCH MEDIUM NEW

Mesurer la capacité d'exploitation des LLM : ExploitBench, ExploitGym et SCONE-bench

Le 22 mai 2026, Anthropic a publié les résultats de Mythos Preview sur trois nouveaux benchmarks d'exploitation. Les chiffres — et la manière dont les benchmarks décomposent la chaîne d'exploit — changent la façon dont les défenseurs doivent penser la capacité offensive frontière.

2026-05-29//8 min
RESEARCH MEDIUM NEW

Proprietary Problems : l'étude Cisco sur 15 modèles fermés montre que les scores de sûreté en un tour ratent l'essentiel du risque multi-tours

Une étude Cisco publiée le 27 mai 2026, portant sur 15 modèles phares fermés d'OpenAI, Anthropic, Google, Amazon et xAI, mesure des taux de succès d'attaque multi-tours allant de 7,89 % à 88,30 % — et des écarts pouvant atteindre 55 points par rapport au régime mono-tour.

2026-05-29//8 min
DEFENSE MEDIUM NEW

Un million de services IA exposés : ce que le scan Intruder a réellement trouvé

Le 5 mai 2026, Intruder publiait les résultats d'un scan internet ayant cartographié un million de services IA exposés sur deux millions d'hôtes. Le défaut récurrent n'est pas exotique : ce sont les configurations par défaut permissives.

2026-05-29//8 min
RESEARCH MEDIUM NEW

Le fossé sécurité agent-humain : ce que la production déploie, ce que la recherche étudie

Un papier UCLA du 23 mai 2026 audite 59 études académiques, 21 systèmes d'agents en production et 26 plugins de sécurité — et constate que les défenses préférées des chercheurs n'ont aucun déploiement en production.

2026-05-29//7 min
RESEARCH MEDIUM NEW

La taxe d'autonomie : comment l'entraînement défensif casse les agents LLM

Un papier USC du 19 mars 2026 mesure le coût de l'entraînement anti-injection sur la compétence des agents — les modèles défendus expirent sur 99 % des tâches, contre 13 % pour la baseline.

2026-05-29//7 min
DEFENSE MEDIUM NEW

MCP a besoin d'une poignée de main de confiance : l'admission attestée des serveurs d'outils

Un papier arXiv du 22 mai 2026 propose mcp-attested — une extension rétrocompatible de MCP qui conditionne tout dispatch d'outil à une attestation signée, à une allowlist deny-by-default et à un journal d'audit infalsifiable.

2026-05-29//7 min
DEFENSE MEDIUM NEW

WARD : un modèle de garde co-évolué qui tient face aux injections de prompt adaptatives sur agents web

Un papier de la NUS daté du 14 mai 2026 propose WARD — un modèle de garde entraîné contre un attaquant adversarial à mémoire — et rapporte un rappel quasi parfait hors-distribution sur l'injection de prompt en agent web.

2026-05-29//8 min
AGENTS MEDIUM NEW

MemMorph : détournement des appels d'outils par empoisonnement fluide de la mémoire

Une publication arXiv du 24 mai 2026 (NTU Singapour) montre que trois entrées de mémoire d'apparence anodine suffisent à orienter un agent vers l'outil choisi par l'attaquant, avec 85,9 % de succès — et résistent à trois défenses standard.

2026-05-29//7 min
ADVERSARIAL MEDIUM NEW

SilentRetrieval : un empoisonnement de corpus RAG fluide qui passe les filtres de perplexité

Un préprint arXiv du 27 mai 2026 propose une attaque en deux temps qui cache des déclencheurs de détournement dans des documents fluides, atteignant 57 % de succès LLM sur Natural Questions et MS MARCO avec un seul document empoisonné par requête.

2026-05-29//7 min
GOVERNANCE MEDIUM

CISA + Five Eyes publient le premier guide commun sur l'adoption des IA agentiques

Le 1er mai 2026, CISA, NSA et les agences cyber des Five Eyes ont publié 'Careful Adoption of Agentic AI Services' — une taxonomie en 5 risques et un manuel de déploiement que les opérateurs d'infrastructures critiques sont désormais censés intégrer à leurs cadres de cybersécurité existants.

2026-05-28//7 min
AGENTS CRITICAL NEW

Microsoft Copilot Cowork : des skills piégées exfiltrent les fichiers M365 sans approbation

Publication PromptArmor du 26 mai 2026 : cinq lignes d'injection de prompt dans une skill Copilot Cowork suffisent à exfiltrer des documents SharePoint et OneDrive via des messages Teams auto-approuvés.

2026-05-28//8 min
MULTIMODAL MEDIUM

CrossMPI : une injection de prompt par image seule pilote ce que lisent et voient les VLM

Un papier de l'Université de Xidian publié sur arXiv le 15 mai 2026 introduit CrossMPI : des perturbations d'image imperceptibles modifient la façon dont les modèles vision-langage interprètent à la fois l'image et la requête textuelle de l'utilisateur, avec 66 % de réussite moyenne sur cinq LVLM.

2026-05-28//7 min
INDIRECT INJECTION MEDIUM NEW

IterInject : quand un LLM optimise lui-même ses injections de prompt indirectes

Un papier du 23 mai 2026 boucle la chaîne payload / diagnostiqueur / optimiseur LLM — l'ASR d'injection indirecte passe de quasi-zéro à 33–90 % sur InjecAgent, et 5 cibles sur 9 sont compromises sur Claude Code.

2026-05-28//6 min
GOVERNANCE MEDIUM NEW

La NSA AISC publie un guide de sécurité MCP pour les déploiements IA

Le 20 mai 2026, l'Artificial Intelligence Security Center de la NSA a publié une fiche d'information de 15 pages sur le Model Context Protocol : huit classes de faiblesses, cinq incidents réels, neuf recommandations défensives.

2026-05-28//8 min
SUPPLY CHAIN MEDIUM

pgAdmin 4 ajoute un panneau LLM et hérite d'un LFI+SSRF classique (CVE-2026-7817)

pgAdmin 4 9.15 corrige un LFI et un SSRF authentifiés dans les nouveaux points d'API LLM. La classe de bug a quarante ans, la surface est toute neuve.

2026-05-28//7 min
RESEARCH MEDIUM

Empoisonner la tour de garde : quand les copilotes SOC lisent des logs contrôlés par l'attaquant

Un papier du 23 mai 2026 formalise l'injection de prompt par substrat de logs — du contenu adverse glissé dans les champs de logs pour piloter les assistants LLM des SOC. La meilleure défense laisse passer 11,8 % d'injections en moyenne.

2026-05-28//8 min
AGENTS MEDIUM NEW

Contamination temporelle de la mémoire : dérive longitudinale de sûreté chez les agents LLM

Trois preprints arXiv d'avril et mai 2026 convergent sur un mode de défaillance complémentaire de l'empoisonnement de mémoire — les agents équipés de mémoire dérivent vers l'unsafe au fil de l'accumulation de contexte bénin, les résumés compressés agissant comme un canal de blanchiment.

2026-05-28//8 min
GOVERNANCE MEDIUM NEW

La pression : les équipes sécurité de l'open source face au déluge de vulnérabilités assistées par IA

Le 26 mai 2026, Daniel Stenberg (curl) publie « The pressure » : plus d'un rapport de sécurité crédible par jour, douze CVE confirmées à mi-cycle, un schéma désormais confirmé par d'autres mainteneurs.

2026-05-28//8 min
AGENTS MEDIUM NEW

Le harnais de l'agent est votre vrai périmètre de privilège — et la plupart des équipes le placent au mauvais endroit

Une analyse de Pillar Security publiée le 26 mai 2026 démontre que le harnais — Claude Code, Cursor, Codex — détient les secrets, outils et hooks que l'agent ne voit jamais. Des bugs récents de harnais et la CVE-2026-22708 rendent la démonstration concrète.

2026-05-28//8 min
JAILBREAK MEDIUM NEW

Sockpuppeting : un préfixe d'une ligne qui jailbreak 11 LLM en production

Une seule ligne injectée comme dernier message « assistant » incite 7 modèles majeurs sur 10 à générer du contenu nuisible. Le correctif n'est pas dans le modèle — c'est une validation d'ordre des messages côté API.

2026-05-28//8 min
INDIRECT INJECTION MEDIUM NEW

GrafanaGhost : injection indirecte de prompt et bug de parsing d'URL pour exfiltrer les données des tableaux de bord

La divulgation du 7 avril 2026 par Noma Security montre comment trois défauts modestes — un point d'injection stocké, un contrôle startsWith('/') et un bypass de garde-fou en un mot — se combinent en un canal d'exfiltration silencieux via l'assistant IA de Grafana.

2026-05-28//7 min
AGENTS MEDIUM

Les réseaux d'agents cassent autrement : le red-team de Microsoft, et RAMPART et Clarity

Microsoft Research a red-teamé une plateforme interne de 100+ agents toujours actifs. Quatre schémas d'attaque — propagation, amplification, capture de confiance, chaînes de proxy — n'apparaissent qu'au niveau du réseau. RAMPART et Clarity, open-sourcés le 20 mai 2026, sont la réponse.

2026-05-27//9 min
AGENTS CRITICAL

Antigravity find_by_name : quand un appel d'outil natif saute par-dessus le Secure Mode

Le 20 avril 2026, Pillar Security a divulgué qu'un seul paramètre non assaini de l'outil find_by_name de Google Antigravity transformait une recherche de fichier en exécution de code arbitraire — en contournant le sandbox le plus strict de l'IDE.

2026-05-27//8 min
OFFENSIVE AI MEDIUM

Apple crédite officiellement Claude sur deux CVE macOS dans son bulletin de mai 2026

Le 11 mai 2026, l'avis de sécurité Apple pour macOS Tahoe 26.5 cite Claude aux côtés de ses chercheurs sur deux CVE — un dépassement d'entier dans le kernel et un use-after-free WebKit. La recherche de vulnérabilités assistée par IA entre dans le changelog officiel.

2026-05-27//6 min
INFRASTRUCTURE CRITICAL

BadHost (CVE-2026-48710) : un caractère dans l'en-tête Host suffit à contourner l'auth dans Starlette, vLLM et FastMCP

X41 D-Sec a divulgué le 22 mai 2026 un contournement d'authentification critique dans Starlette < 1.0.1. Un seul / ? ou # dans l'en-tête HTTP Host désynchronise le chemin routé du chemin vu par le middleware, cassant l'autorisation par chemin dans vLLM, LiteLLM, FastMCP et des milliers d'agents IA construits sur FastAPI.

2026-05-27//8 min
DATA LEAK CRITICAL

Bleeding Llama : une faille de parsing GGUF expose la mémoire d'Ollama à des attaquants non authentifiés

Divulguée publiquement en mai 2026 et baptisée Bleeding Llama par Cyera, la CVE-2026-7482 permet à un attaquant distant d'extraire des fragments arbitraires du tas d'un serveur Ollama — clés d'API, system prompts, conversations d'autres utilisateurs — en trois appels d'API non authentifiés. Le patch silencieux a été publié 2,5 mois avant l'attribution de la CVE.

2026-05-27//8 min
AGENTS CRITICAL

ClaudeBleed : quand un agent navigateur fait confiance à la mauvaise extension

LayerX a divulgué ClaudeBleed le 6 mai 2026 : une faille de frontière de confiance permettait à n'importe quelle extension Chrome de piloter Claude in Chrome et d'exfiltrer des données Gmail, Drive et GitHub. Le premier correctif a été contourné en quelques heures.

2026-05-27//7 min
PROMPT INJECTION CRITICAL

Injection de prompt encodée : quand les garde-fous échouent parce que le LLM décode le payload

Le 4 mai 2026, un tweet rédigé en code Morse a vidé environ 175 000 $ d'un portefeuille crypto piloté par Grok. L'incident est la démonstration la plus coûteuse à ce jour d'un angle mort défensif déjà connu — un filtre par appariement de chaînes ne voit pas à travers les encodages que le modèle lui-même décode volontiers.

2026-05-27//8 min
OFFENSIVE AI MEDIUM

La première vague de CVE : la découverte assistée par IA redessine le volume des divulgations

L'analyse VulnCheck du 14 mai 2026 montre une hausse YTD de +563 % sur Chrome, +476 % sur GitHub, +180 % sur VMware, +170 % sur Apache. Le basculement systémique derrière les manchettes Apple, Mozilla et ActiveMQ est désormais lisible dans les chiffres.

2026-05-27//7 min
PROMPT INJECTION MEDIUM

Injection par font-mapping : le peer review devient une surface d'attaque LLM

Un benchmark arXiv du 25 mai 2026 montre que des payloads dissimulés par font-mapping font passer des reviews LLM de reject à accept. ICML 2026 a déjà utilisé la même technique en miroir pour rejeter 497 articles.

2026-05-27//8 min
AGENTS CRITICAL

Transport STDIO de MCP : le choix de conception devenu 11 CVE et 200 000 agents exposés

Le 16 avril 2026, OX Security a révélé que le transport STDIO de MCP, signé Anthropic, exécute toute commande qu'on lui passe. Anthropic parle d'un comportement « voulu ». La cascade a produit onze CVE en six semaines.

2026-05-27//8 min
RESEARCH MEDIUM

MultiBreak : 10 389 prompts multi-tours révèlent comment les jailbreaks conversationnels percent l'alignement des LLM

Un papier publié à ICML 2026 le 3 mai dernier dévoile le benchmark multi-tours le plus large et le plus diversifié à ce jour. Il enregistre des écarts de taux de succès d'attaque allant jusqu'à 54 points sur DeepSeek-R1-7B et 34,6 sur GPT-4.1-mini par rapport à l'état de l'art précédent, et quantifie comment un alignement qui tient en un tour s'effondre sur plusieurs.

2026-05-27//8 min
AGENTS CRITICAL

Quand le prompt devient un shell : de l'injection au RCE dans les frameworks d'agents

Deux CVE dans Microsoft Semantic Kernel et quatre dans CrewAI — toutes divulguées début 2026 — transforment un simple prompt injecté en exécution de code à distance sur l'hôte. Le motif est structurel, pas accidentel.

2026-05-27//8 min
RESEARCH LOW

Teaching Claude Why : comment Anthropic a fait passer la mésalignement agentique à zéro

Le 8 mai 2026, l'équipe Alignment Science d'Anthropic a publié une étude de cas montrant qu'apprendre à Claude à expliquer son raisonnement éthique — et non simplement à le démontrer — réduit la mésalignement agentique de 96 % à moins de 1 %.

2026-05-27//8 min
AGENTS MEDIUM

Sécuriser les agents IA comme des systèmes d'exploitation : la cartographie du CISPA

Un papier du CISPA publié le 14 mai 2026 transpose plusieurs décennies de sécurité des OS aux agents LLM. Testé sur quatre agents de type OpenClaw, deux familles de faiblesses — exfiltration inter-utilisateurs et sortie réseau non autorisée — échouent sur tous les systèmes.

2026-05-26//8 min
OFFENSIVE AI CRITICAL

Attaque ICS assistée par IA : leçons de l'intrusion contre le service des eaux de Monterrey

Le rapport publié par Dragos en mai 2026 sur Servicios de Agua y Drenaje de Monterrey documente la première campagne analysée publiquement où un LLM commercial — Claude — a été l'opérateur technique principal d'une tentative d'intrusion OT.

2026-05-26//8 min
AGENTS MEDIUM

Empoisonner une fois, exploiter pour toujours : poisoning persistant de la mémoire des agents LLM (OWASP ASI06)

Un papier arXiv d'avril 2026 sur le memory poisoning inter-sites et un post OWASP du 13 mai 2026 sur la découverte MemoryTrap de Cisco contre Claude Code convergent vers le même constat : la mémoire d'agent est une frontière de confiance.

2026-05-26//8 min
MULTIMODAL CRITICAL

AudioHijack : du son imperceptible détourne les agents vocaux (IEEE S&P 2026)

Un papier IEEE S&P du 16 avril 2026 introduit l'injection de prompt auditive : une réverbération adverse cachée dans l'audio pousse 13 modèles audio-langage et les agents vocaux commerciaux (Mistral AI, Microsoft Azure) à exécuter des actions non autorisées avec 79 à 96 % de réussite.

2026-05-26//8 min
INDIRECT INJECTION MEDIUM

XSS Discourse AI (CVE-2026-27740) : quand la sortie d'un LLM est traitée comme du HTML de confiance

Un message signalé, un modérateur IA, un appel à htmlSafe. Le plugin Discourse AI traitait la sortie LLM comme du markup de confiance, transformant une prompt injection indirecte en XSS côté staff. Publié le 19 mars 2026.

2026-05-26//7 min
AGENTS CRITICAL

Le Triangle Mortel : quand un agent lit des données privées, du contenu non fiable, et peut appeler dehors

Le cadre de Simon Willison pour la faute architecturale qui a transformé la vague d'exfiltrations d'agents IA de 2026 en classe de vulnérabilité, et non en coïncidence.

2026-05-26//8 min
AGENTS MEDIUM

Vulnérabilités back-end MCP : les failles classiques refont surface dans les passerelles IA-bases de données

La recherche d'Akamai du 12 mai 2026 documente une injection SQL (CVE-2025-66335), une authentification manquante et des entrées non assainies dans trois serveurs MCP — Apache Doris, Apache Pinot et Alibaba RDS. Le motif, plus que les bugs, est l'enseignement.

2026-05-26//8 min
OFFENSIVE AI MEDIUM

OpenAI Daybreak et GPT-5.5-Cyber : un modèle de sécurité permissif derrière un sas d'identité vérifiée

Entre le 7 et le 12 mai 2026, OpenAI a lancé Daybreak — une plateforme de cybersécurité reposant sur GPT-5.5, Codex Security et un cousin « cyber-permissif », GPT-5.5-Cyber. Le red team de l'UK AISI avait trouvé un jailbreak universel en six heures.

2026-05-26//8 min
DEFENSE MEDIUM

Project Glasswing : 10 000+ bugs critiques trouvés par Claude Mythos en un mois

Le bilan publié par Anthropic le 26 mai 2026 indique que près de 50 partenaires de Project Glasswing ont utilisé Claude Mythos Preview pour identifier plus de 10 000 vulnérabilités de sévérité élevée ou critique, dont 271 bugs latents corrigés dans Firefox 150.

2026-05-26//8 min
AGENTS CRITICAL

Semantic Kernel : quand un prompt devient un shell (CVE-2026-25592, CVE-2026-26030)

Microsoft a divulgué le 7 mai 2026 deux vulnérabilités critiques dans Semantic Kernel qui transforment un simple prompt injecté en exécution de code sur l'hôte. La cause racine est architecturale : registre d'outils et eval() traités comme des commodités, pas comme des frontières de sécurité.

2026-05-26//8 min
SUPPLY CHAIN MEDIUM

Déclencheurs cachés dans SKILL.md : attaques sémantiques sur les registres de skills d'agents

Un papier de l'Université du Maryland publié le 12 mai 2026 montre qu'un ajout de 20 tokens dans un fichier SKILL.md fait découvrir et sélectionner une skill malveillante par l'agent dans 77 à 86 % des essais, et contourne les scans du registre jusqu'à 100 % du temps.

2026-05-26//8 min
AGENTS MEDIUM

Trust No Tool : empoisonnement cognitif des agents LLM via les retours d'outils

Un article arXiv du 17 mai 2026 introduit l'« empoisonnement cognitif » : un outil malveillant gagne la confiance de l'agent au fil de tours anodins et n'arme que l'action finale. La cible de défense passe du prompt à la trajectoire.

2026-05-26//8 min
ADVERSARIAL MEDIUM

Usability as a Weapon : quand une demande d'amélioration rend le code généré vulnérable

Un paper arXiv du 11 mai 2026 montre que demander à un LLM de coder « plus vite », « plus simple » ou avec « une fonctionnalité de plus » fait silencieusement disparaître les protections. UPAttack atteint 98,1 % sur GPT-5.2-chat et Gemini-3.

2026-05-26//8 min
DEFENSE MEDIUM

Agents Rule of Two : la réponse pragmatique de Meta au prompt injection

Publiée le 31 octobre 2025 par Meta et reprise dans le guide Databricks de mai 2026, l'Agents Rule of Two limite une session d'agent à deux des trois propriétés à risque — le cadre le plus actionnable tant que le prompt injection reste sans solution.

2026-05-25//7 min
AGENTS CRITICAL

CVE-2026-35435 : les agents M365 publiés depuis Azure AI Foundry faisaient confiance à des appelants qu'ils auraient dû refuser

Divulguée le 7 mai 2026 (CVSS 8.6), une faille de contrôle d'accès dans Azure AI Foundry permet à des attaquants non autorisés d'élever leurs privilèges via les agents M365 publiés. Microsoft signale une exploitation active ; des mesures de mitigation existent avant le correctif.

2026-05-25//7 min
AGENTS CRITICAL

Azure SRE Agent : un contrôle de token multi-tenant qui laissait des inconnus écouter vos incidents (CVE-2026-32173)

Divulguée le 20 avril 2026, une mauvaise configuration d'app registration Entra ID sur le WebSocket /agentHub d'Azure SRE Agent permettait à n'importe quel tenant de se connecter et d'écouter chaque prompt, chaque raisonnement, chaque commande CLI et chaque identifiant — silencieusement.

2026-05-25//8 min
AGENTS CRITICAL

Claw Chain : quatre CVE OpenClaw qui transforment l'agent IA en main de l'attaquant

Divulguées le 15 mai 2026, les failles Claw Chain de Cyera Research chaînent quatre vulnérabilités OpenClaw — évasion de sandbox, fuite de variables d'environnement, élévation de privilèges MCP, lecture par symlink — en prise de contrôle complète de l'hôte via l'agent.

2026-05-25//8 min
AGENTS CRITICAL

Comment and Control : un même schéma d'injection de prompt, trois agents qui fuitent les secrets GitHub Actions

Divulguée le 15 avril 2026, l'attaque Comment and Control transforme un titre de PR, un commentaire d'issue ou un commentaire HTML en canal d'exfiltration de secrets dans Claude Code, Gemini CLI et GitHub Copilot Agent.

2026-05-25//8 min
RESEARCH MEDIUM

Intégrité contextuelle : pourquoi les défenses contre l'injection de prompt échouent

Un papier de mai 2026 d'Abdelnabi et Bagdasarian relit l'injection de prompt à travers l'Intégrité Contextuelle et montre que séparer données et instructions est une erreur de catégorie.

2026-05-25//7 min
PROMPT INJECTION CRITICAL

Copirate 365 : chaîner injection de prompt, invocation différée d'outils et empoisonnement de mémoire dans M365 Copilot (CVE-2026-24299)

Le compte-rendu DEF CON de Johann Rehberger, publié en mai 2026, déroule une chaîne d'injection indirecte en cinq étapes qui transforme un courriel piégé en backdoor persistante dans Microsoft 365 Copilot. Patchée, mais les patterns sont génériques.

2026-05-25//8 min
INDIRECT INJECTION MEDIUM

Injection indirecte de prompt : trois études d'avril 2026 convergent

Google, Forcepoint et le CISPA ont mesuré indépendamment l'injection indirecte de prompt sur le web ouvert en avril 2026. Bilan : plus de 15 000 payloads validés, +32 % de croissance, modèles industrialisés.

2026-05-25//7 min
INFRASTRUCTURE CRITICAL

LiteLLM CVE-2026-42208 : une injection SQL pré-authentifiée dans la passerelle IA

Divulguée le 20 avril 2026 et exploitée 36 heures après l'indexation de l'avis mondial, CVE-2026-42208 transforme l'en-tête Authorization de LiteLLM en lecture directe sur toutes les clés fournisseur que la passerelle fronte.

2026-05-25//6 min
RESEARCH MEDIUM

Quand l'attaquant est un autre LLM : les grands modèles de raisonnement en jailbreakers autonomes

Un papier Nature Communications formalisé en mai 2026 montre que quatre modèles de raisonnement — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini et Qwen3 235B — jailbreakent neuf LLM cibles avec un taux de succès global de 97,14 %, à partir d'un simple prompt système.

2026-05-25//7 min
JAILBREAK MEDIUM

Jailbreaks par encodage mathématique : quand la théorie des ensembles contourne l'alignement

Un papier arXiv publié le 5 mai 2026 montre que reformuler une requête nuisible en problème de théorie des ensembles ou de logique formelle contourne l'alignement de 46 à 56 % du temps sur huit modèles de pointe — mais seulement si un LLM auxiliaire fait la reformulation.

2026-05-25//7 min
AGENTS CRITICAL

PraisonAI CVE-2026-44338 : un serveur d'agents sans authentification, exploité en 3h44

Divulguée le 11 mai 2026, CVE-2026-44338 livre PraisonAI avec l'authentification désactivée en dur dans son ancien serveur API. Un scanner CVE-Detector a sondé l'endpoint moins de quatre heures plus tard.

2026-05-25//6 min
INDIRECT INJECTION MEDIUM

ShareLeak (CVE-2026-21520) : le premier CVE assigné par Microsoft à une injection de prompt Copilot

Divulgué le 15 avril 2026, le write-up ShareLeak de Capsule Security décrit une injection indirecte de prompt dans Microsoft Copilot Studio. Microsoft a assigné CVE-2026-21520 (CVSS 7.5) — une première qui requalifie la prompt injection en classe de vulnérabilité suivie.

2026-05-25//7 min
DEFENSE MEDIUM

ARGUS : une défense par graphe de provenance contre l'injection de prompt contextuelle

Publié le 5 mai 2026, l'article ARGUS introduit un audit par graphe d'influence pour les agents LLM — le taux de réussite des attaques chute de 28,8 % à 3,8 % sur un nouveau benchmark.

2026-05-22//8 min
DEFENSE MEDIUM

Hiérarchie des instructions : entraîner les LLM à prioriser les ordres privilégiés

Le papier OpenAI de 2024 propose une défense structurelle contre l'injection de prompt : apprendre au modèle que système > utilisateur > sortie d'outil. L'idée est désormais centrale dans l'entraînement de GPT-4o-mini et de la série o.

2026-05-22//8 min
INFRASTRUCTURE CRITICAL

LMDeploy SSRF : quand un chargeur d'images détourne l'infrastructure IA

CVE-2026-33626 transforme la fonction load_image() de LMDeploy en primitive SSRF générique. Premier exploit observé en 12 heures et 31 minutes après publication de l'avis.

2026-05-22//7 min
AGENTS CRITICAL

Détournement d'agent en local : attaques WebSocket cross-origin sur les agents de code IA

La CVE-2026-44211 (CVSS 9.7), divulguée le 7 mai 2026, montre comment la simple visite d'une page malveillante peut détourner un agent de code IA installé sur le poste d'un développeur. La classe d'attaque est générique — et architecturale.

2026-05-22//8 min
SUPPLY CHAIN CRITICAL

Mini Shai-Hulud : le ver supply-chain qui s'en est pris à l'écosystème IA

Divulgué du 11 au 18 mai 2026, le ver Mini Shai-Hulud a trojanisé plus de 170 paquets npm et PyPI — dont Mistral AI, Guardrails AI et TanStack — et installe une persistance dans Claude Code et VS Code.

2026-05-22//8 min
DEFENSE MEDIUM

Le filtrage de sortie bat l'auto-défense du modèle : 20 000 attaques adaptatives, un seul survivant

Posté le 26 avril et révisé le 12 mai 2026, un papier Swept AI / Michigan a opposé neuf défenses contre l'injection de prompt à un attaquant adaptatif. Toutes les défenses côté modèle ont fini par tomber. Seul le filtrage de sortie applicatif a tenu — zéro fuite sur 15 000 attaques.

2026-05-22//7 min
AGENTS CRITICAL

Prompts-shells : quand l'injection de prompt devient RCE dans les frameworks d'agents

Deux CVE divulguées dans Microsoft Semantic Kernel le 7 mai 2026 (CVE-2026-25592, CVE-2026-26030) montrent comment un prompt injecté peut basculer du texte à l'exécution de code à distance sur l'hôte de l'agent.

2026-05-22//8 min
PROMPT INJECTION CRITICAL

ASCII Smuggling : commandes cachées via les caractères Unicode Tag

Les caractères Unicode Tag (U+E0000–U+E007F) sont invisibles pour les humains mais interprétés par les LLM. Les attaquants les intègrent dans des emails, pages web et PDF pour injecter des commandes silencieuses qui détournent le comportement des agents.

2026-05-19//8 min
JAILBREAK CRITICAL

Many-shot jailbreaking : 256 exemples pour contourner n'importe quel alignement

Les chercheurs d'Anthropic ont montré qu'en remplissant la fenêtre de contexte avec 256 faux exemples de Q&R, on contourne l'entraînement de sécurité. Plus de contexte = plus de surface d'attaque.

2026-05-15//6 min
DATA LEAK CRITICAL

Extraction de system prompt via attaques par répétition

Demander au modèle de 'répéter le mot poème à l'infini' le fait éventuellement vomir des données d'entraînement et des system prompts. Documenté sur Claude 3, GPT-4 et Gemini.

2026-05-10//4 min
RESEARCH LOW

Sleeper agents : backdoors cachées qui survivent à l'entraînement de sécurité

Anthropic a démontré que des modèles entraînés avec des phrases-déclencheurs cachées conservent leur comportement backdoor même après l'entraînement de sécurité RLHF standard. Les implications pour les LLM en open-weight sont significatives.

2026-05-03//14 min