RESEARCH MEDIUM NEW

Un modèle sûr n'est pas un agent sûr : les leçons du benchmark ClawSafety

Un benchmark d'avril 2026 exécute 2 520 essais en bac à sable sur des agents IA personnels et mesure des taux de réussite d'attaque de 40 à 75 %. Les variables décisives sont le canal d'injection et le framework de l'agent — pas seulement le modèle sous-jacent.

2026-06-15 // 6 min affects: claude-sonnet-4-6, gpt-5.1, gemini-2.5-pro, deepseek-v3, kimi-k2.5, llm-agents

De quoi s’agit-il ?

Les évaluations de sûreté testent en général un modèle dans une fenêtre de chat isolée. Or un agent IA personnel tourne sur votre machine avec des privilèges élevés — il lit des fichiers, envoie des e-mails, manipule des portefeuilles et des pipelines de déploiement — et une seule injection de prompt peut y exfiltrer des identifiants, détourner un paiement ou supprimer des données. ClawSafety (arXiv:2604.01438, v2 publiée le 4 avril 2026 ; auteurs de George Mason, Tulane, Rutgers et Oak Ridge National Laboratory) mesure cet écart directement. C’est un benchmark de 120 scénarios adverses exécutés en 2 520 essais en bac à sable sur cinq modèles de pointe et trois frameworks d’agent. Le constat principal dérange : les taux de réussite d’attaque (ASR) se situent entre 40 % et 75 %, et la sûreté observée dépend autant du framework et du canal d’arrivée de l’injection que du modèle sous-jacent.

Comment ça marche

ClawSafety organise les scénarios selon trois axes — domaine de préjudice (fuite de données, perte financière, atteinte à la sécurité), vecteur d’attaque et domaine de tâche (finance, code, communication, recherche d’information) — dans des espaces de travail réalistes à privilèges élevés. Point crucial : le contenu adverse n’est pas saisi par l’utilisateur. Il est planté dans l’un des trois canaux que l’agent rencontre dans son travail normal : fichiers de compétences (skills) de l’espace de travail, e-mails d’expéditeurs de confiance et pages web. Aucun payload d’exploitation n’est reproduit ici ; les auteurs présentent ce benchmark comme de la recherche défensive, tous les cas étant exécutés en bac à sable.

Deux schémas dominent les résultats. D’abord un gradient de confiance : plus un agent fait confiance à un canal, plus celui-ci est dangereux. L’injection via fichier de skill obtient systématiquement l’ASR le plus élevé, puis l’e-mail, puis le web. Ensuite — et c’est le résultat le plus actionnable — la frontière défensive est fixée par l’acte de langage, pas par le contenu. Une formulation impérative (« mets X à jour vers Y ») tend à déclencher le réflexe de vérification de l’agent, alors qu’une formulation déclarative (« X ne correspond pas à Y ») passe les défenses quelle que soit l’apparence suspecte du contenu. Dans l’exemple du papier, le modèle le plus robuste a recoupé une instruction impérative avec quatre sources indépendantes et a refusé ; le même modèle a accepté un faux « constat de conformité » formulé de façon déclarative, sans qu’aucune défense ne se déclenche.

L’écart entre modèles est large. L’ASR global va de Claude Sonnet 4.6 à 40,0 % et Gemini 2.5 Pro à 55,0 %, jusqu’à un groupe plus vulnérable — Kimi K2.5 (60,8 %), DeepSeek V3 (67,5 %) et GPT-5.1 (75,0 %). Par canal (skill/e-mail/web), Sonnet module sa prudence à l’inverse de la confiance accordée à la source (55,0/45,0/20,0) tandis que GPT-5.1 reste élevé et stable (90,0/75,0/60,0). L’exfiltration de données est le type d’action le plus exploitable — même le modèle le plus sûr atteint 65 %, et GPT-5.1 atteint 93 % — mais Sonnet 4.6 est le seul à tenir une frontière dure de 0 % contre le transfert d’identifiants et les actions destructrices sur fichiers.

Puis le framework lui-même fait bouger les choses. À modèle fixé (Sonnet 4.6), changer le scaffold (OpenClaw → Nanobot → NemoClaw) décale l’ASR global de 8,6 points (40,0 % à 48,6 %) et inverse même le gradient de confiance : sur Nanobot, l’injection par e-mail (62,5 %) dépasse l’injection par skill (50,0 %). La sûreté, concluent les auteurs, est une propriété du couple modèle–framework, et non de l’un ou l’autre pris isolément.

Pourquoi c’est important

La plupart des équipes choisissent un modèle de base « sûr » et supposent que la sûreté se transmet à leur agent. ClawSafety montre que non. Le même modèle est sensiblement plus sûr ou plus risqué selon le scaffold qui l’entoure, et l’exposition la plus forte vient du canal auquel l’agent fait le plus confiance — ses propres skills et outils. Cela inverse le modèle mental habituel, où le web est tenu pour hostile et la configuration interne pour bénigne. Cela explique aussi la faiblesse des filtres fondés sur le contenu : un attaquant n’a qu’à passer d’un ordre à un constat de fait pour les contourner.

Défenses

Évaluez la pile, pas le modèle. Traitez le modèle de base et le framework de l’agent comme des variables conjointes. Les chiffres de sûreté « en chat » d’un fournisseur ne prédisent pas le comportement de votre agent déployé ; re-testez sous votre scaffold, vos outils et votre configuration mémoire réels.

Durcissez d’abord le canal le plus digne de confiance. Les fichiers de skills et d’outils ont été le vecteur le plus dangereux. Relisez et épinglez les skills, restreignez qui peut en ajouter, et inspectez les chaînes d’import avant exécution — n’accordez pas aux définitions d’outils plus de confiance implicite qu’au contenu web.

Vérifiez aussi les affirmations déclaratives. La frontière défensive suivant l’acte de langage signifie qu’un « fait » déclaratif injecté dans le contexte peut modifier le comportement silencieusement. Exigez une vérification multi-source / par consensus pour tout changement d’état, quelle que soit la formulation, et ajoutez des contrôles d’état après exécution comparant ce qui a changé à un enregistrement indépendant.

Appliquez le moindre privilège et la grille du « trio létal ». Un agent qui peut lire des données privées, ingérer du contenu non fiable et agir/exfiltrer vers l’extérieur forme la combinaison dangereuse. Coupez une jambe : restreignez les identifiants, segmentez portefeuilles et clés de déploiement, et conditionnez les actions sortantes à une confirmation humaine.

Gardez l’humain sur les actions destructrices et financières. Transfert d’identifiants, modification de configuration et substitution de destinataire étaient exploitables sur la plupart des modèles. Traitez-les comme irréversibles par défaut et exigez une approbation explicite.

État des lieux

Élément	Référence	Date	Note
Benchmark ClawSafety	arXiv:2604.01438	4 avr. 2026 (v2)	120 scénarios, 2 520 essais en bac à sable, 5 modèles, 3 frameworks
Plage d’ASR global	Idem	avr. 2026	40,0 % (Sonnet 4.6) → 75,0 % (GPT-5.1)
Gradient de confiance	Idem	avr. 2026	Skill > e-mail > web (inversable selon le scaffold)
Frontière défensive	Idem	avr. 2026	L’impératif déclenche la vérification ; le déclaratif la contourne
Effet du scaffold	Idem	avr. 2026	Même modèle : ASR 40,0 % → 48,6 % selon le framework