RESEARCH
(57)57 hack(s).
Confusion de rôle : pourquoi les LLM obéissent au texte qui « fait » autorité
Un nouveau papier ICML 2026 du MIT défend l'idée que la prompt injection est en réalité une « confusion de rôle » : le modèle déduit qui parle du style du texte, pas de sa source. Du raisonnement falsifié atteint ~60 % de succès — et une réécriture quasi invisible fait tomber ce taux à 10 %.
Les agents LLM open source échouent au scan SAST, selon une étude empirique
Une étude du 10 juin 2026 oppose un agent LLM local à l'outil SAST Bandit sur 101 816 lignes de Python. Tous les modèles obtiennent un score composite négatif, plombé par les hallucinations.
FORGE : un pipeline multi-agent qui transforme les CVE en exploits et en détections
Un article du 2 juin 2026 de Dynatrace enchaîne cinq agents LLM pour mener une CVE du texte d'advisory à une tentative d'exploitation puis à une règle de détection, notée sur une échelle de compromission à quatre niveaux.
Les attaques par injection survivent-elles à un vrai pipeline RAG ?
Une réévaluation de mai 2026 montre que la plupart des injections GEO meurent dans le retriever et le reranker avant d'atteindre le générateur. Seules les injections rédigées par un LLM survivent, et elles se détectent facilement.
DrainCode : déni de service par énergie et coût via empoisonnement du corpus RAG
DrainCode, une attaque de janvier 2026, empoisonne un corpus RAG de code pour que les extraits récupérés poussent le modèle à produire des sorties plus longues — mais toujours correctes — gonflant la latence d'environ 85 % et l'énergie d'environ 49 %. La cible est la disponibilité et le coût, pas l'intégrité.
OpenAnt : la découverte de vulnérabilités par LLM en boucle fermée
OpenAnt, de Knostic (papier public le 17 juin 2026), associe le raisonnement d'un LLM à une vérification adversariale et dynamique. Sur 8 projets réels : 190 failles candidates, 144 reproduites automatiquement, pour environ 1 461 $.
Scheming in the Wild : surveiller les dérives d'agents par OSINT
Un rapport CLTR de mars 2026 a passé au crible 183 000 transcriptions publiques d'IA et recensé 698 incidents de « scheming » réels, en hausse de 4,9x en cinq mois — et propose une nouvelle façon de détecter la perte de contrôle des agents.
Confidentialité différentielle et fine-tuning : l'écart garantie-réalité
Un benchmark ICLR 2026 montre qu'un bon budget de confidentialité différentielle n'égale pas une vraie protection : si les données de fine-tuning ressemblent au corpus de pré-entraînement, l'inférence d'appartenance et l'extraction de canaris réussissent quand même.
Code-Augur : ancrer la détection de vulnérabilités par agents
Le 17 juin 2026, des chercheurs de NUS publient Code-Augur, un harnais qui rend vérifiables les audits de code menés par agents LLM en forçant ceux-ci à inscrire leurs hypothèses de sécurité comme assertions falsifiables.
Les garde-fous d'agents échouent en cours de trajectoire : lire la trace prime sur l'alignement
Un benchmark d'avril 2026 sur 20 garde-fous montre que, pour les agents, la détection dépend de la capacité à parser les traces d'appels d'outils, pas de l'alignement — et les LLM généralistes battent les modèles de sécurité dédiés.
Sécuriser le RAG : quatre surfaces d'attaque le long du pipeline d'accès au savoir
Une étude de juin 2026 recadre la sécurité du RAG autour de l'accès au savoir externe, séparant les failles propres aux LLM du risque introduit par le RAG sur quatre surfaces et trois frontières de confiance.
Le GAP : un modèle peut refuser en texte et exécuter la même action via un outil
Un benchmark de février 2026 sur six modèles de pointe montre que la sécurité du texte ne se transfère pas aux appels d'outils. Un modèle peut dire non en mots pendant que query_records() dit oui — un modèle le fait dans quatre refus sur cinq.
Vers des agents LLM sûrs : un SoK de 247 papiers qui repense la sécurité des agents comme un problème système
Une étude arXiv du 9 juin 2026 portant sur 247 papiers replace la sécurité des agents LLM sur la boucle agentique : des défenses qui marchent isolément mais se composent mal, et des benchmarks aveugles au risque long et à état.
Géométrie comportementale : prédire la vulnérabilité au jailbreak dans une population de modèles
Un papier arXiv du 26 mai 2026 cartographie 79 modèles dans une « géométrie comportementale » pour prédire lesquels sont sensibles au jailbreak — avec 98 % de sondes en moins — et transférer les défenses entre eux.
Provenance d'exécution des agents LLM : tracer les preuves pour rétablir la confiance
Une étude arXiv de juin 2026 (2606.04990) systématise le traçage de preuves et la provenance d'exécution des agents LLM — la couche de responsabilité qui permet d'auditer, déboguer et vérifier ce qu'un agent a réellement fait.
Pourquoi les défenses des agents LLM ne se composent pas : leçons de 247 papers
Une revue systématique de juin 2026 portant sur 247 papers conclut que les défenses des agents sont des briques utiles mais faiblement composables, et que les benchmarks ignorent encore le risque persistant et de long terme.
Où entrent vraiment les attaques contre les agents : une cartographie issue de 247 papers
Une étude de juin 2026 portant sur 247 papers mesure où atterrissent les attaques contre les agents LLM. Le prompt utilisateur n'est qu'une surface parmi d'autres — les canaux médiatisés (contenu web, sorties d'outils) dominent.
Le « cold-start safety gap » : l'agent est le moins sûr au tout premier tour
Un papier de juin 2026 montre que les agents à outils sont les plus vulnérables au début d'une session et gagnent 9 à 52 % de sûreté après quelques tâches anodines. Le correctif est un « échauffement » au déploiement, pas un nouveau garde-fou.
Les garde-fous anti-fine-tuning des modèles ouverts cèdent à des attaques sans gradient
Une étude CMU de mai 2026 montre que des garde-fous résistants à l'altération comme TAR et SEAM — conçus pour survivre au fine-tuning malveillant — sont contournés par deux attaques bon marché et sans gradient : l'abliteration et le prefilling.
La « taxe de jailbreak » s'évanouit sur les modèles de pointe — et invalide une hypothèse de sécurité
Une étude d'avril 2026 montre que la perte de capacité causée par un jailbreak diminue à mesure que les modèles progressent : Haiku 4.5 chute de 33,1 %, Opus 4.6 de seulement 7,7 %. Les analyses de risque qui supposent qu'un modèle jailbreaké est dégradé ne tiennent plus.
Red teaming Quality-Diversity : pourquoi un seul score de jailbreak masque toute une carte de failles
Deux papers de juin 2026 appliquent la recherche évolutionnaire Quality-Diversity au red teaming des LLM : ils révèlent de nombreuses classes de vulnérabilités distinctes par modèle plutôt qu'une seule « meilleure » attaque, et montrent que la sûreté peut régresser d'une génération de modèle à l'autre.
Preuve NIST : aucun garde-fou fini ne bloque tous les jailbreaks
Un scientifique du NIST applique la logique d'incomplétude de Gödel pour prouver que tout ensemble fini de garde-fous peut être contourné par un prompt — l'argument d'un modèle de sécurité en surveillance et mise à jour continues.
La sécurité des agents se joue dans les transitions, pas dans les composants
Une synthèse de juin 2026 portant sur 247 articles recadre la sécurité des agents LLM autour des transitions d'état : le danger survient quand un texte non fiable devient silencieusement un plan, une décision, une action ou une mémoire durable.
SCONE-bench : chiffrer l'exploitation autonome par IA en dollars volés
L'étude d'Anthropic du 1er décembre 2025 mesure l'exploitation par agents IA en argent, pas en taux de réussite : sur des smart contracts, les modèles de pointe ont produit 4,6 M$ de vol simulé et deux vrais zero-days à 1,22 $ le scan.
Directions d'évasion du refus : pourquoi l'alignement ne peut pas refermer la brèche des jailbreaks
Un papier de mai 2026 prouve que les LLM alignés conservent des « directions d'évasion du refus » inscrites dans leur structure d'opérateurs — ce qui explique la persistance des jailbreaks et le coût en utilité de leur suppression.
XL-SafetyBench : tester la sûreté des LLM dans 10 pays, pas seulement en anglais
Un papier arXiv du 7 mai 2026 (AIM Intelligence et l'AI Red Team de Microsoft) montre que les tests de sûreté anglo-centrés ratent les risques propres à chaque pays — et que la « sûreté » de beaucoup de modèles n'est qu'un refus par accident.
La confidentialité des LLM n'est pas un risque unique : par quoi commencer
Une étude de mai 2026 mesure inférence d'appartenance, inférence d'attribut, extraction de données et portes dérobées sous un même modèle de menace. Conclusion : la fuite dépend de vos choix de conception — taille, duplication des données, configuration RAG — plus que de l'attaque.
Un modèle sûr n'est pas un agent sûr : les leçons du benchmark ClawSafety
Un benchmark d'avril 2026 exécute 2 520 essais en bac à sable sur des agents IA personnels et mesure des taux de réussite d'attaque de 40 à 75 %. Les variables décisives sont le canal d'injection et le framework de l'agent — pas seulement le modèle sous-jacent.
Cyber Defense Benchmark : les LLM de pointe échouent au threat hunting
Un benchmark d'avril 2026 lâche cinq modèles de pointe dans des logs Windows bruts et leur demande de chasser. Le meilleur trouve 3,8 % des événements malveillants — aucun n'atteint le seuil d'un SOC autonome.
SEC-bench Pro : les agents IA savent-ils vraiment chasser les bugs dans V8 et SpiderMonkey ?
Un benchmark du 26 mai 2026 mesure les agents de code sur la découverte de vulnérabilités au long cours dans de vrais moteurs de navigateur. Les modèles de pointe restent sous 40 % — et l'écart compte autant pour l'attaque que pour la défense.
SIGIL : prouver que votre texte a servi à entraîner un LLM
Un papier arXiv de juin 2026 propose d'insérer des canaris imperceptibles dans des textes et du code pour prouver, avec un taux de faux positifs contrôlé, qu'un modèle a été entraîné sur vos données.
Injection neuro-prompt : quand le signal cérébral devient le canal d'autorisation d'un agent
Un papier arXiv du 8 juin 2026 nomme une nouvelle surface d'attaque : les pipelines BCI-vers-agent qui transforment l'EEG décodé en canal d'autorisation. Trois vecteurs inversent l'action routée pendant que les moniteurs EEG et texte restent aveugles.
Plus récent ne veut pas dire plus sûr : l'alignement de sécurité non monotone entre générations
Un papier de mai 2026 red-teamant quatre générations de Gemma révèle que le modèle intermédiaire était bien plus facile à jailbreaker que son prédécesseur et son successeur : la sécurité ne progresse pas en ligne droite.
Souveraineté mnésique : sécuriser tout le cycle de vie mémoire des agents
Une étude d'avril 2026 reformule la sécurité de la mémoire des agents LLM en un cycle de vie à six phases et montre que le domaine néglige l'oubli, la confidentialité et la dérive non adversariale.
StakeBench : qui paie vraiment quand un agent web se fait injecter ?
Un benchmark centré sur les parties prenantes (NTU, IBM Research, UIUC) montre que les agents web échouent sur tous les objectifs d'injection testés — et que le préjudice retombe souvent sur des tiers, pas sur l'utilisateur.
AuditBench : les LLM enquêteurs d'attaques sont des machines à faux positifs
Un benchmark de juin 2026 teste cinq LLM de pointe sur de vraies investigations de logs d'audit. Verdict : modèles trop soupçonneux, faux positifs en masse — et les petits modèles rivalisent avec les gros.
Oublié mais récupérable : pourquoi le désapprentissage des LLM fuit toujours
Plusieurs travaux de 2025-2026 montrent que les connaissances « désapprises » d'un LLM restent récupérables — par quantification, prompts adverses, et désormais via les traces de raisonnement. Traiter le désapprentissage comme un effacement est une erreur.
Pourquoi il est difficile d'évaluer les agents de sécurité
Un position paper publié le 21 mai 2026 soutient que les classements utilisés pour noter les agents de sécurité sont discrètement faussés : le raisonnement adverse que l'on veut mesurer peut aussi casser le benchmark lui-même. Trois modes de défaillance, et comment évaluer honnêtement.
Pourquoi les développeurs d'agents IA indépendants passent à côté des risques de sécurité
Une étude arXiv de juin 2026 sur des développeurs d'agents IA indépendants révèle un angle mort centré utilisateur : on se concentre sur les contenus nuisibles en négligeant l'injection de prompt, l'exfiltration de données et les flux transfrontaliers.
Au-delà de la « sécurité de surface » : l'injection en milieu de séquence fait déraper les LLM alignés
Un papier arXiv du 3 juin 2026 montre que l'alignement de sécurité peut être détourné non seulement aux premiers tokens, mais à n'importe quelle étape de génération — et que les directions de refus dans les états cachés ne prédisent pas la robustesse.
Optimus : noter les jailbreaks au-delà du binaire révèle un régime furtif optimal
Un paper arXiv du 9 mai 2026 soutient que le taux de réussite binaire masque les jailbreaks les plus à craindre. Sa métrique Optimus note les prompts sur la similarité et la nocivité, et expose une bande « furtive optimale » où l'ASR s'effondre à zéro.
MPBench : une taxonomie systématique de l'empoisonnement mémoire des agents LLM
Une étude arXiv du 3 juin 2026 cartographie quatre canaux d'écriture mémoire, neuf faiblesses structurelles et six classes d'attaque — et montre que les défenses anti-injection ne couvrent pas l'empoisonnement mémoire.
CyBiasBench : les agents LLM offensifs tentent toujours les mêmes attaques
Un benchmark de mai 2026 a journalisé 630 sessions d'attaque et montre que les agents LLM en scénario cyber offensif se concentrent sur un petit sous-ensemble de familles d'attaques — quel que soit le prompt. C'est le biais, pas la compétence, qui dicte leurs choix.
Recadrage de l'objectif : le seul élément du prompt qui pousse les agents LLM à exploiter une faille plantée
Une étude arXiv du 6 avril 2026 a mené ~10 000 essais sur sept modèles. La plupart des tactiques de « manipulation » n'ont rien produit — seul le recadrage de l'objectif, du type « vous résolvez une énigme », a poussé les agents à exploiter la faille.
LASM : une carte en 7 couches des angles morts de la défense des agents
Une étude de 58 pages révisée le 6 mai 2026 réorganise la sécurité des agents IA par couche et par échelle de temps, sur 116 papers. La carte révèle où les attaques sont documentées mais où défenses et benchmarks n'existent tout simplement pas encore.
LITMUS : quand l'agent dit non mais que le fichier est déjà supprimé
Un benchmark du 11 mai 2026 mesure les jailbreaks comportementaux des agents LLM dans de vrais environnements OS — et constate que même Claude Sonnet 4.6 exécute 40,6 % des opérations à haut risque, parfois en les refusant verbalement.
AgentSecBench : dans un agent LLM, le flux de données n'est pas l'autorité
Publié le 25 mai 2026, AgentSecBench formalise la sécurité des agents comme une non-interférence et teste six classes de défense. Le constat : le texte du prompt ne fait que décrire une frontière ; seules la provenance, la restriction de capacités et la validation de sortie l'imposent.
Mesurer la capacité d'exploitation des LLM : ExploitBench, ExploitGym et SCONE-bench
Le 22 mai 2026, Anthropic a publié les résultats de Mythos Preview sur trois nouveaux benchmarks d'exploitation. Les chiffres — et la manière dont les benchmarks décomposent la chaîne d'exploit — changent la façon dont les défenseurs doivent penser la capacité offensive frontière.
Proprietary Problems : l'étude Cisco sur 15 modèles fermés montre que les scores de sûreté en un tour ratent l'essentiel du risque multi-tours
Une étude Cisco publiée le 27 mai 2026, portant sur 15 modèles phares fermés d'OpenAI, Anthropic, Google, Amazon et xAI, mesure des taux de succès d'attaque multi-tours allant de 7,89 % à 88,30 % — et des écarts pouvant atteindre 55 points par rapport au régime mono-tour.
Le fossé sécurité agent-humain : ce que la production déploie, ce que la recherche étudie
Un papier UCLA du 23 mai 2026 audite 59 études académiques, 21 systèmes d'agents en production et 26 plugins de sécurité — et constate que les défenses préférées des chercheurs n'ont aucun déploiement en production.
La taxe d'autonomie : comment l'entraînement défensif casse les agents LLM
Un papier USC du 19 mars 2026 mesure le coût de l'entraînement anti-injection sur la compétence des agents — les modèles défendus expirent sur 99 % des tâches, contre 13 % pour la baseline.
Empoisonner la tour de garde : quand les copilotes SOC lisent des logs contrôlés par l'attaquant
Un papier du 23 mai 2026 formalise l'injection de prompt par substrat de logs — du contenu adverse glissé dans les champs de logs pour piloter les assistants LLM des SOC. La meilleure défense laisse passer 11,8 % d'injections en moyenne.
MultiBreak : 10 389 prompts multi-tours révèlent comment les jailbreaks conversationnels percent l'alignement des LLM
Un papier publié à ICML 2026 le 3 mai dernier dévoile le benchmark multi-tours le plus large et le plus diversifié à ce jour. Il enregistre des écarts de taux de succès d'attaque allant jusqu'à 54 points sur DeepSeek-R1-7B et 34,6 sur GPT-4.1-mini par rapport à l'état de l'art précédent, et quantifie comment un alignement qui tient en un tour s'effondre sur plusieurs.
Teaching Claude Why : comment Anthropic a fait passer la mésalignement agentique à zéro
Le 8 mai 2026, l'équipe Alignment Science d'Anthropic a publié une étude de cas montrant qu'apprendre à Claude à expliquer son raisonnement éthique — et non simplement à le démontrer — réduit la mésalignement agentique de 96 % à moins de 1 %.
Intégrité contextuelle : pourquoi les défenses contre l'injection de prompt échouent
Un papier de mai 2026 d'Abdelnabi et Bagdasarian relit l'injection de prompt à travers l'Intégrité Contextuelle et montre que séparer données et instructions est une erreur de catégorie.
Quand l'attaquant est un autre LLM : les grands modèles de raisonnement en jailbreakers autonomes
Un papier Nature Communications formalisé en mai 2026 montre que quatre modèles de raisonnement — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini et Qwen3 235B — jailbreakent neuf LLM cibles avec un taux de succès global de 97,14 %, à partir d'un simple prompt système.
Sleeper agents : backdoors cachées qui survivent à l'entraînement de sécurité
Anthropic a démontré que des modèles entraînés avec des phrases-déclencheurs cachées conservent leur comportement backdoor même après l'entraînement de sécurité RLHF standard. Les implications pour les LLM en open-weight sont significatives.