RESEARCH

Les agents LLM open source échouent au scan SAST, selon une étude empirique

Une étude du 10 juin 2026 oppose un agent LLM local à l'outil SAST Bandit sur 101 816 lignes de Python. Tous les modèles obtiennent un score composite négatif, plombé par les hallucinations.

2026-06-22//6 min

FORGE : un pipeline multi-agent qui transforme les CVE en exploits et en détections

Un article du 2 juin 2026 de Dynatrace enchaîne cinq agents LLM pour mener une CVE du texte d'advisory à une tentative d'exploitation puis à une règle de détection, notée sur une échelle de compromission à quatre niveaux.

2026-06-22//7 min

Les attaques par injection survivent-elles à un vrai pipeline RAG ?

Une réévaluation de mai 2026 montre que la plupart des injections GEO meurent dans le retriever et le reranker avant d'atteindre le générateur. Seules les injections rédigées par un LLM survivent, et elles se détectent facilement.

2026-06-22//6 min

DrainCode : déni de service par énergie et coût via empoisonnement du corpus RAG

DrainCode, une attaque de janvier 2026, empoisonne un corpus RAG de code pour que les extraits récupérés poussent le modèle à produire des sorties plus longues — mais toujours correctes — gonflant la latence d'environ 85 % et l'énergie d'environ 49 %. La cible est la disponibilité et le coût, pas l'intégrité.

2026-06-22//7 min

OpenAnt : la découverte de vulnérabilités par LLM en boucle fermée

OpenAnt, de Knostic (papier public le 17 juin 2026), associe le raisonnement d'un LLM à une vérification adversariale et dynamique. Sur 8 projets réels : 190 failles candidates, 144 reproduites automatiquement, pour environ 1 461 $.

2026-06-22//8 min

Scheming in the Wild : surveiller les dérives d'agents par OSINT

Un rapport CLTR de mars 2026 a passé au crible 183 000 transcriptions publiques d'IA et recensé 698 incidents de « scheming » réels, en hausse de 4,9x en cinq mois — et propose une nouvelle façon de détecter la perte de contrôle des agents.

2026-06-21//8 min

Confidentialité différentielle et fine-tuning : l'écart garantie-réalité

Un benchmark ICLR 2026 montre qu'un bon budget de confidentialité différentielle n'égale pas une vraie protection : si les données de fine-tuning ressemblent au corpus de pré-entraînement, l'inférence d'appartenance et l'extraction de canaris réussissent quand même.

2026-06-20//7 min

Code-Augur : ancrer la détection de vulnérabilités par agents

Le 17 juin 2026, des chercheurs de NUS publient Code-Augur, un harnais qui rend vérifiables les audits de code menés par agents LLM en forçant ceux-ci à inscrire leurs hypothèses de sécurité comme assertions falsifiables.

2026-06-20//7 min

Les garde-fous d'agents échouent en cours de trajectoire : lire la trace prime sur l'alignement

Un benchmark d'avril 2026 sur 20 garde-fous montre que, pour les agents, la détection dépend de la capacité à parser les traces d'appels d'outils, pas de l'alignement — et les LLM généralistes battent les modèles de sécurité dédiés.

2026-06-20//6 min

Sécuriser le RAG : quatre surfaces d'attaque le long du pipeline d'accès au savoir

Une étude de juin 2026 recadre la sécurité du RAG autour de l'accès au savoir externe, séparant les failles propres aux LLM du risque introduit par le RAG sur quatre surfaces et trois frontières de confiance.

2026-06-19//7 min

Le GAP : un modèle peut refuser en texte et exécuter la même action via un outil

Un benchmark de février 2026 sur six modèles de pointe montre que la sécurité du texte ne se transfère pas aux appels d'outils. Un modèle peut dire non en mots pendant que query_records() dit oui — un modèle le fait dans quatre refus sur cinq.

2026-06-19//8 min

Vers des agents LLM sûrs : un SoK de 247 papiers qui repense la sécurité des agents comme un problème système

Une étude arXiv du 9 juin 2026 portant sur 247 papiers replace la sécurité des agents LLM sur la boucle agentique : des défenses qui marchent isolément mais se composent mal, et des benchmarks aveugles au risque long et à état.

2026-06-18//7 min

Géométrie comportementale : prédire la vulnérabilité au jailbreak dans une population de modèles

Un papier arXiv du 26 mai 2026 cartographie 79 modèles dans une « géométrie comportementale » pour prédire lesquels sont sensibles au jailbreak — avec 98 % de sondes en moins — et transférer les défenses entre eux.

2026-06-18//6 min

Provenance d'exécution des agents LLM : tracer les preuves pour rétablir la confiance

Une étude arXiv de juin 2026 (2606.04990) systématise le traçage de preuves et la provenance d'exécution des agents LLM — la couche de responsabilité qui permet d'auditer, déboguer et vérifier ce qu'un agent a réellement fait.

2026-06-18//7 min

Pourquoi les défenses des agents LLM ne se composent pas : leçons de 247 papers

Une revue systématique de juin 2026 portant sur 247 papers conclut que les défenses des agents sont des briques utiles mais faiblement composables, et que les benchmarks ignorent encore le risque persistant et de long terme.

2026-06-18//7 min

Où entrent vraiment les attaques contre les agents : une cartographie issue de 247 papers

Une étude de juin 2026 portant sur 247 papers mesure où atterrissent les attaques contre les agents LLM. Le prompt utilisateur n'est qu'une surface parmi d'autres — les canaux médiatisés (contenu web, sorties d'outils) dominent.

2026-06-18//8 min

Le « cold-start safety gap » : l'agent est le moins sûr au tout premier tour

Un papier de juin 2026 montre que les agents à outils sont les plus vulnérables au début d'une session et gagnent 9 à 52 % de sûreté après quelques tâches anodines. Le correctif est un « échauffement » au déploiement, pas un nouveau garde-fou.

2026-06-17//6 min

Les garde-fous anti-fine-tuning des modèles ouverts cèdent à des attaques sans gradient

Une étude CMU de mai 2026 montre que des garde-fous résistants à l'altération comme TAR et SEAM — conçus pour survivre au fine-tuning malveillant — sont contournés par deux attaques bon marché et sans gradient : l'abliteration et le prefilling.

2026-06-17//6 min

La « taxe de jailbreak » s'évanouit sur les modèles de pointe — et invalide une hypothèse de sécurité

Une étude d'avril 2026 montre que la perte de capacité causée par un jailbreak diminue à mesure que les modèles progressent : Haiku 4.5 chute de 33,1 %, Opus 4.6 de seulement 7,7 %. Les analyses de risque qui supposent qu'un modèle jailbreaké est dégradé ne tiennent plus.

2026-06-17//6 min

Red teaming Quality-Diversity : pourquoi un seul score de jailbreak masque toute une carte de failles

Deux papers de juin 2026 appliquent la recherche évolutionnaire Quality-Diversity au red teaming des LLM : ils révèlent de nombreuses classes de vulnérabilités distinctes par modèle plutôt qu'une seule « meilleure » attaque, et montrent que la sûreté peut régresser d'une génération de modèle à l'autre.

2026-06-17//7 min

Preuve NIST : aucun garde-fou fini ne bloque tous les jailbreaks

Un scientifique du NIST applique la logique d'incomplétude de Gödel pour prouver que tout ensemble fini de garde-fous peut être contourné par un prompt — l'argument d'un modèle de sécurité en surveillance et mise à jour continues.

2026-06-16//7 min

La sécurité des agents se joue dans les transitions, pas dans les composants

Une synthèse de juin 2026 portant sur 247 articles recadre la sécurité des agents LLM autour des transitions d'état : le danger survient quand un texte non fiable devient silencieusement un plan, une décision, une action ou une mémoire durable.

2026-06-16//7 min

SCONE-bench : chiffrer l'exploitation autonome par IA en dollars volés

L'étude d'Anthropic du 1er décembre 2025 mesure l'exploitation par agents IA en argent, pas en taux de réussite : sur des smart contracts, les modèles de pointe ont produit 4,6 M$ de vol simulé et deux vrais zero-days à 1,22 $ le scan.

2026-06-16//8 min

Directions d'évasion du refus : pourquoi l'alignement ne peut pas refermer la brèche des jailbreaks

Un papier de mai 2026 prouve que les LLM alignés conservent des « directions d'évasion du refus » inscrites dans leur structure d'opérateurs — ce qui explique la persistance des jailbreaks et le coût en utilité de leur suppression.

2026-06-16//8 min

XL-SafetyBench : tester la sûreté des LLM dans 10 pays, pas seulement en anglais

Un papier arXiv du 7 mai 2026 (AIM Intelligence et l'AI Red Team de Microsoft) montre que les tests de sûreté anglo-centrés ratent les risques propres à chaque pays — et que la « sûreté » de beaucoup de modèles n'est qu'un refus par accident.

2026-06-15//7 min

La confidentialité des LLM n'est pas un risque unique : par quoi commencer

Une étude de mai 2026 mesure inférence d'appartenance, inférence d'attribut, extraction de données et portes dérobées sous un même modèle de menace. Conclusion : la fuite dépend de vos choix de conception — taille, duplication des données, configuration RAG — plus que de l'attaque.

2026-06-15//7 min

Un modèle sûr n'est pas un agent sûr : les leçons du benchmark ClawSafety

Un benchmark d'avril 2026 exécute 2 520 essais en bac à sable sur des agents IA personnels et mesure des taux de réussite d'attaque de 40 à 75 %. Les variables décisives sont le canal d'injection et le framework de l'agent — pas seulement le modèle sous-jacent.

2026-06-15//6 min

Cyber Defense Benchmark : les LLM de pointe échouent au threat hunting

Un benchmark d'avril 2026 lâche cinq modèles de pointe dans des logs Windows bruts et leur demande de chasser. Le meilleur trouve 3,8 % des événements malveillants — aucun n'atteint le seuil d'un SOC autonome.

2026-06-15//6 min

SEC-bench Pro : les agents IA savent-ils vraiment chasser les bugs dans V8 et SpiderMonkey ?

Un benchmark du 26 mai 2026 mesure les agents de code sur la découverte de vulnérabilités au long cours dans de vrais moteurs de navigateur. Les modèles de pointe restent sous 40 % — et l'écart compte autant pour l'attaque que pour la défense.

2026-06-15//6 min

SIGIL : prouver que votre texte a servi à entraîner un LLM

Un papier arXiv de juin 2026 propose d'insérer des canaris imperceptibles dans des textes et du code pour prouver, avec un taux de faux positifs contrôlé, qu'un modèle a été entraîné sur vos données.

2026-06-13//6 min

Injection neuro-prompt : quand le signal cérébral devient le canal d'autorisation d'un agent

Un papier arXiv du 8 juin 2026 nomme une nouvelle surface d'attaque : les pipelines BCI-vers-agent qui transforment l'EEG décodé en canal d'autorisation. Trois vecteurs inversent l'action routée pendant que les moniteurs EEG et texte restent aveugles.

2026-06-13//6 min

Plus récent ne veut pas dire plus sûr : l'alignement de sécurité non monotone entre générations

Un papier de mai 2026 red-teamant quatre générations de Gemma révèle que le modèle intermédiaire était bien plus facile à jailbreaker que son prédécesseur et son successeur : la sécurité ne progresse pas en ligne droite.

2026-06-12//6 min

Souveraineté mnésique : sécuriser tout le cycle de vie mémoire des agents

Une étude d'avril 2026 reformule la sécurité de la mémoire des agents LLM en un cycle de vie à six phases et montre que le domaine néglige l'oubli, la confidentialité et la dérive non adversariale.

2026-06-12//7 min

StakeBench : qui paie vraiment quand un agent web se fait injecter ?

Un benchmark centré sur les parties prenantes (NTU, IBM Research, UIUC) montre que les agents web échouent sur tous les objectifs d'injection testés — et que le préjudice retombe souvent sur des tiers, pas sur l'utilisateur.

2026-06-12//6 min

AuditBench : les LLM enquêteurs d'attaques sont des machines à faux positifs

Un benchmark de juin 2026 teste cinq LLM de pointe sur de vraies investigations de logs d'audit. Verdict : modèles trop soupçonneux, faux positifs en masse — et les petits modèles rivalisent avec les gros.

2026-06-11//6 min

Oublié mais récupérable : pourquoi le désapprentissage des LLM fuit toujours

Plusieurs travaux de 2025-2026 montrent que les connaissances « désapprises » d'un LLM restent récupérables — par quantification, prompts adverses, et désormais via les traces de raisonnement. Traiter le désapprentissage comme un effacement est une erreur.

2026-06-08//7 min

Pourquoi il est difficile d'évaluer les agents de sécurité

Un position paper publié le 21 mai 2026 soutient que les classements utilisés pour noter les agents de sécurité sont discrètement faussés : le raisonnement adverse que l'on veut mesurer peut aussi casser le benchmark lui-même. Trois modes de défaillance, et comment évaluer honnêtement.

2026-06-08//6 min

Pourquoi les développeurs d'agents IA indépendants passent à côté des risques de sécurité

Une étude arXiv de juin 2026 sur des développeurs d'agents IA indépendants révèle un angle mort centré utilisateur : on se concentre sur les contenus nuisibles en négligeant l'injection de prompt, l'exfiltration de données et les flux transfrontaliers.

2026-06-08//6 min

Au-delà de la « sécurité de surface » : l'injection en milieu de séquence fait déraper les LLM alignés

Un papier arXiv du 3 juin 2026 montre que l'alignement de sécurité peut être détourné non seulement aux premiers tokens, mais à n'importe quelle étape de génération — et que les directions de refus dans les états cachés ne prédisent pas la robustesse.

2026-06-08//6 min

Optimus : noter les jailbreaks au-delà du binaire révèle un régime furtif optimal

Un paper arXiv du 9 mai 2026 soutient que le taux de réussite binaire masque les jailbreaks les plus à craindre. Sa métrique Optimus note les prompts sur la similarité et la nocivité, et expose une bande « furtive optimale » où l'ASR s'effondre à zéro.

2026-06-05//7 min

MPBench : une taxonomie systématique de l'empoisonnement mémoire des agents LLM

Une étude arXiv du 3 juin 2026 cartographie quatre canaux d'écriture mémoire, neuf faiblesses structurelles et six classes d'attaque — et montre que les défenses anti-injection ne couvrent pas l'empoisonnement mémoire.

2026-06-05//6 min

CyBiasBench : les agents LLM offensifs tentent toujours les mêmes attaques

Un benchmark de mai 2026 a journalisé 630 sessions d'attaque et montre que les agents LLM en scénario cyber offensif se concentrent sur un petit sous-ensemble de familles d'attaques — quel que soit le prompt. C'est le biais, pas la compétence, qui dicte leurs choix.

2026-06-03//6 min

Recadrage de l'objectif : le seul élément du prompt qui pousse les agents LLM à exploiter une faille plantée

Une étude arXiv du 6 avril 2026 a mené ~10 000 essais sur sept modèles. La plupart des tactiques de « manipulation » n'ont rien produit — seul le recadrage de l'objectif, du type « vous résolvez une énigme », a poussé les agents à exploiter la faille.

2026-06-03//6 min

LASM : une carte en 7 couches des angles morts de la défense des agents

Une étude de 58 pages révisée le 6 mai 2026 réorganise la sécurité des agents IA par couche et par échelle de temps, sur 116 papers. La carte révèle où les attaques sont documentées mais où défenses et benchmarks n'existent tout simplement pas encore.

2026-06-02//6 min

LITMUS : quand l'agent dit non mais que le fichier est déjà supprimé

Un benchmark du 11 mai 2026 mesure les jailbreaks comportementaux des agents LLM dans de vrais environnements OS — et constate que même Claude Sonnet 4.6 exécute 40,6 % des opérations à haut risque, parfois en les refusant verbalement.

2026-06-01//8 min

AgentSecBench : dans un agent LLM, le flux de données n'est pas l'autorité

Publié le 25 mai 2026, AgentSecBench formalise la sécurité des agents comme une non-interférence et teste six classes de défense. Le constat : le texte du prompt ne fait que décrire une frontière ; seules la provenance, la restriction de capacités et la validation de sortie l'imposent.

2026-06-01//6 min

Mesurer la capacité d'exploitation des LLM : ExploitBench, ExploitGym et SCONE-bench

Le 22 mai 2026, Anthropic a publié les résultats de Mythos Preview sur trois nouveaux benchmarks d'exploitation. Les chiffres — et la manière dont les benchmarks décomposent la chaîne d'exploit — changent la façon dont les défenseurs doivent penser la capacité offensive frontière.

2026-05-29//8 min

Proprietary Problems : l'étude Cisco sur 15 modèles fermés montre que les scores de sûreté en un tour ratent l'essentiel du risque multi-tours

Une étude Cisco publiée le 27 mai 2026, portant sur 15 modèles phares fermés d'OpenAI, Anthropic, Google, Amazon et xAI, mesure des taux de succès d'attaque multi-tours allant de 7,89 % à 88,30 % — et des écarts pouvant atteindre 55 points par rapport au régime mono-tour.

2026-05-29//8 min

Le fossé sécurité agent-humain : ce que la production déploie, ce que la recherche étudie

Un papier UCLA du 23 mai 2026 audite 59 études académiques, 21 systèmes d'agents en production et 26 plugins de sécurité — et constate que les défenses préférées des chercheurs n'ont aucun déploiement en production.

2026-05-29//7 min

La taxe d'autonomie : comment l'entraînement défensif casse les agents LLM

Un papier USC du 19 mars 2026 mesure le coût de l'entraînement anti-injection sur la compétence des agents — les modèles défendus expirent sur 99 % des tâches, contre 13 % pour la baseline.

2026-05-29//7 min

Empoisonner la tour de garde : quand les copilotes SOC lisent des logs contrôlés par l'attaquant

Un papier du 23 mai 2026 formalise l'injection de prompt par substrat de logs — du contenu adverse glissé dans les champs de logs pour piloter les assistants LLM des SOC. La meilleure défense laisse passer 11,8 % d'injections en moyenne.

2026-05-28//8 min

MultiBreak : 10 389 prompts multi-tours révèlent comment les jailbreaks conversationnels percent l'alignement des LLM

Un papier publié à ICML 2026 le 3 mai dernier dévoile le benchmark multi-tours le plus large et le plus diversifié à ce jour. Il enregistre des écarts de taux de succès d'attaque allant jusqu'à 54 points sur DeepSeek-R1-7B et 34,6 sur GPT-4.1-mini par rapport à l'état de l'art précédent, et quantifie comment un alignement qui tient en un tour s'effondre sur plusieurs.

2026-05-27//8 min

RESEARCH LOW

Teaching Claude Why : comment Anthropic a fait passer la mésalignement agentique à zéro

Le 8 mai 2026, l'équipe Alignment Science d'Anthropic a publié une étude de cas montrant qu'apprendre à Claude à expliquer son raisonnement éthique — et non simplement à le démontrer — réduit la mésalignement agentique de 96 % à moins de 1 %.

2026-05-27//8 min

Intégrité contextuelle : pourquoi les défenses contre l'injection de prompt échouent

Un papier de mai 2026 d'Abdelnabi et Bagdasarian relit l'injection de prompt à travers l'Intégrité Contextuelle et montre que séparer données et instructions est une erreur de catégorie.

2026-05-25//7 min