Les garde-fous d'agents échouent en cours de trajectoire : lire la trace prime sur l'alignement
Un benchmark d'avril 2026 sur 20 garde-fous montre que, pour les agents, la détection dépend de la capacité à parser les traces d'appels d'outils, pas de l'alignement — et les LLM généralistes battent les modèles de sécurité dédiés.
De quoi s’agit-il ?
Presque tous les garde-fous (guardrails) du marché sont évalués de la même façon : on leur soumet un prompt ou une réponse de modèle, et on leur demande de signaler ce qui est dangereux. Cela avait du sens quand un LLM était un agent conversationnel dont la seule sortie était du texte. C’est beaucoup moins pertinent pour un agent, dont le comportement dangereux ne réside pas dans la réponse finale mais dans les appels d’outils intermédiaires qu’il émet en chemin.
TraceSafe : A Systematic Assessment of LLM Guardrails on Multi-Step Tool-Calling Trajectories (arXiv:2604.07223, soumis le 8 avril 2026) est le premier benchmark conçu pour tester les garde-fous là où cela compte désormais : en cours de trajectoire. Les auteurs assemblent TraceSafe-Bench, plus de 1 000 instances d’exécution couvrant 12 catégories de risque — des menaces de sécurité comme l’injection de prompt et les fuites de données aux défaillances opérationnelles comme les hallucinations et les incohérences d’interface — et y soumettent 20 systèmes de garde : 13 modèles généralistes utilisés en LLM-as-a-guard, plus 7 garde-fous de sécurité dédiés. Le résultat est inconfortable pour quiconque compte sur un modèle de sécurité spécialisé pour surveiller son agent.
Comment ça marche
Le benchmark redéfinit l’unité d’évaluation. Au lieu de noter une réponse isolée, il note le jugement d’un garde-fou sur une trajectoire : la séquence de définitions d’outils, d’appels, d’arguments et d’observations renvoyées qu’un agent produit en poursuivant un objectif. Un risque peut apparaître à l’étape trois et pas à l’étape une ; il peut n’être visible que dans un argument JSON malformé, ou seulement une fois qu’une observation renvoyée est réinjectée dans l’appel suivant. Le rôle du garde-fou est de le repérer n’importe où dans cette chaîne.
Aucune chaîne d’exploitation n’est reproduite ici, et aucune n’est nécessaire pour comprendre le constat. Le point est structurel : ce qu’émet un agent n’est pas de la prose, c’est un journal d’exécution semi-structuré, et le lire correctement est une compétence différente de celle qui consiste à juger si une phrase est toxique.
Pourquoi c’est important
Les trois conclusions phares de TraceSafe contredisent chacune une idée reçue.
D’abord, un goulet d’étranglement structurel. L’efficacité d’un garde-fou sur les trajectoires dépend davantage de sa capacité à parser des données structurées — JSON, schémas d’outils, champs d’arguments — que de son alignement de sécurité. La performance corrèle fortement avec la compétence structuré-vers-texte (ρ = 0,79) mais montre une corrélation quasi nulle avec les scores standard de robustesse au jailbreak. Autrement dit, le benchmark de sécurité qui vous a servi à choisir votre garde-fou ne prédit presque rien de sa performance sur les traces d’agents.
Ensuite, l’architecture prime sur la taille. L’architecture du modèle a compté davantage que le nombre de paramètres pour la détection de risque sur trajectoire, et les LLM généralistes ont systématiquement surpassé les garde-fous de sécurité spécialisés — précisément les produits souvent vendus comme la réponse à la sécurité des agents.
Enfin, la stabilité temporelle. La précision s’est maintenue, et parfois améliorée, sur les trajectoires longues : les étapes supplémentaires permettent au modèle de passer des définitions d’outils statiques au comportement dynamique réel de l’agent, lui donnant davantage d’éléments pour juger. Les agents à long horizon ne sont pas automatiquement plus difficiles à surveiller — à condition que le surveillant sache lire la trace.
La lecture opérationnelle est directe. Un garde-fou qui domine un classement de jailbreak peut être quasi aveugle sur le flux d’appels d’outils où votre agent fait réellement des dégâts, et un petit classifieur « entraîné à la sécurité » peut être un moins bon choix qu’un modèle généraliste capable de lire la trace.
Défenses
-
Cessez d’évaluer les garde-fous d’agents avec des benchmarks purement conversationnels. Un bon score de robustesse au jailbreak ne se transfère pas à la surveillance de trajectoire (ρ ≈ 0 dans TraceSafe). Testez vos garde-fous candidats sur de vraies traces d’appels d’outils issues de vos propres agents avant de leur faire confiance.
-
Pondérez la compétence sur données structurées dans la sélection. Puisque la capacité de parsing — et non l’étiquette « sécurité » — prédisait la performance sur trajectoire, préférez un surveillant qui lit de façon fiable le JSON, les schémas d’outils et les champs d’arguments. Un LLM généraliste en LLM-as-a-guard a ici surpassé les garde-fous dédiés.
-
Vérifiez au niveau de l’étape, avant exécution — pas seulement à la fin. Des travaux complémentaires, ToolSafe (arXiv:2601.10156, 15 janvier 2026), construisent un garde-fou pré-exécution au niveau de l’étape (TS-Guard) et une boucle de rétroaction (TS-Flow) qui réduisent les appels d’outils nuisibles des agents de type ReAct de 65 % en moyenne tout en améliorant d’environ 10 % l’achèvement des tâches légitimes sous attaque par injection de prompt. Intercepter l’appel avant qu’il ne s’exécute vaut mieux que relire le transcript après coup.
-
Maintenez une frontière d’autorisation déterministe sous le surveillant à base de modèle. Un garde-fou est une couche de rattrapage probabiliste ; associez-le à des portées d’outils en moindre privilège et à un refus par défaut sur les actions sensibles, afin qu’une trajectoire manquée ne devienne pas une action exécutée.
-
Optimisez les deux compétences, pas une seule. La conclusion de TraceSafe est que sécuriser les workflows agentiques exige d’améliorer conjointement le raisonnement structurel et l’alignement de sécurité. Un surveillant fort sur un seul axe laisse un trou prévisible.
Statut
| Élément | Référence | Date | Notes |
|---|---|---|---|
| TraceSafe-Bench | arXiv:2604.07223 | 2026-04-08 | 1 000+ instances de trajectoire, 12 catégories de risque, 20 systèmes de garde |
| Goulet structurel | Idem | 2026-04-08 | Efficacité liée à la compétence JSON/structurée (ρ=0,79) ; corrélation ~0 avec la robustesse au jailbreak |
| Architecture > taille | Idem | 2026-04-08 | Les LLM généralistes battent les garde-fous de sécurité spécialisés sur les traces |
| Garde au niveau étape (défense) | arXiv:2601.10156 | 2026-01-15 | TS-Guard / TS-Flow réduisent les appels nuisibles d’~65 %, +~10 % de tâches légitimes sous injection |
La leçon n’est pas que les garde-fous sont inutiles. C’est que la surface de sécurité d’un agent est sa trace d’exécution, et qu’un garde-fou choisi sur des benchmarks conversationnels est sélectionné pour la mauvaise tâche. Mesurez votre surveillant là où l’agent agit, ou acceptez de ne pas savoir s’il surveille quoi que ce soit.