RESEARCH MEDIUM NEW

Le « cold-start safety gap » : l'agent est le moins sûr au tout premier tour

Un papier de juin 2026 montre que les agents à outils sont les plus vulnérables au début d'une session et gagnent 9 à 52 % de sûreté après quelques tâches anodines. Le correctif est un « échauffement » au déploiement, pas un nouveau garde-fou.

2026-06-17 // 6 min affects: llm-agents, tool-calling-agents, gpt-4, claude-3, llama-3

De quoi s’agit-il ?

Un preprint publié sur arXiv le 5 juin 2026 (2606.07867) met en évidence une propriété contre-intuitive des agents LLM appelant des outils : ils ne sont pas également sûrs tout au long d’une conversation. Un agent est le plus vulnérable au tout premier tour d’une session, et devient mesurablement plus difficile à détourner après avoir accompli quelques tâches ordinaires et anodines. Les auteurs — Chung-En Sun, Linbo Liu et Tsui-Wei Weng, du Trustworthy-ML-Lab — nomment ce phénomène le cold-start safety gap (écart de sûreté au démarrage à froid).

L’ampleur de l’écart n’est pas marginale. Sur 7 modèles issus de 4 familles, le refus des requêtes nuisibles s’améliore de 9 % à 52 % à mesure que le nombre de tâches anodines préalables passe de zéro à vingt. Le même modèle, avec le même prompt système, se laisse bien plus facilement pousser vers un usage nuisible des outils lorsque la requête malveillante arrive en premier — avant tout travail normal dans la session.

Comment ça marche

Pour mesurer l’effet proprement, le papier introduit un benchmark appelé SODA (Safety Over Depth for Agents). SODA ne fait varier qu’une seule variable : le nombre de tâches agentiques ordinaires que l’agent accomplit avant de rencontrer une requête sensible du point de vue de la sûreté, jusqu’à une profondeur de 20 tâches préalables. En gardant la requête nuisible fixe et en ne faisant varier que la profondeur, les auteurs isolent la profondeur de conversation comme cause, plutôt que la formulation du prompt ou la version du modèle.

Le mécanisme est visible dans les représentations internes du modèle. Une analyse des représentations montre que les états cachés dérivent vers une région alignée sur la sûreté de l’espace d’activation à mesure que les tâches anodines s’accumulent dans le contexte — le modèle « s’échauffe », en somme, vers un mode de fonctionnement plus sûr. Les auteurs disséquent ensuite quelle partie de la conversation préalable fait le travail, et la réponse est précise : ce sont les tâches ordinaires elles-mêmes qui portent l’essentiel du gain de sûreté, tandis que les réponses antérieures de l’agent contribuent peu à la sûreté mais sont nécessaires pour préserver l’utilité ultérieure. Retirez les tâches anodines et la sûreté retombe au niveau du démarrage à froid ; retirez les réponses de l’agent et il reste sûr mais perd en capacité sur le travail suivant.

Les résultats se reproduisent sur des benchmarks indépendants et publics — AgentHarm et Agent Safety Bench pour la sûreté, BFCL et API-Bank pour l’utilité — ce qui distingue ce travail d’une curiosité propre à un seul montage. Aucune chaîne de jailbreak n’est reproduite ici ; la contribution est diagnostique. Elle s’inscrit dans la lignée établie des travaux de mesure du détournement d’agents, comme AgentHarm (2410.09024), qui avait déjà montré que les agents fondés sur des modèles de pointe sont étonnamment dociles face à des tâches malveillantes, même sans jailbreak.

Pourquoi c’est important

L’essentiel de l’évaluation de sûreté des agents se fait sur une session fraîche, en un seul tour : on instancie l’agent, on envoie le prompt nuisible, on note s’il refuse. Ce papier indique que ce protocole mesure l’agent à son point de sûreté le plus défavorable, puis le met en production. Une validation red-team obtenue au tour un ne décrit pas le comportement de l’agent au tour dix — et, surtout, un attaquant qui atteint l’agent en premier, avant tout usage légitime, le frappe exactement là où il est le plus faible.

Cela a des conséquences directes sur la manière d’exposer les agents. Un agent fraîchement instancié et remis directement à une entrée non fiable — une nouvelle session déclenchée par un e-mail entrant, un webhook, un message client, ou un agent éphémère créé à froid à chaque requête — se trouve par construction dans la zone de démarrage à froid. Les architectures mêmes que l’on adopte pour l’isolation (un agent neuf par tâche, sans historique partagé) peuvent maximiser l’exposition décrite par ce papier.

Défenses

Échauffez l’agent avant de l’exposer à des entrées non fiables. La recommandation phare du papier : faire accomplir à l’agent quelques tâches agentiques ordinaires et anodines en début de session avant qu’il ne puisse recevoir des requêtes sensibles. Cela le déplace vers la région de représentation plus sûre tout en préservant sa pleine capacité, sans réentraînement.
Cessez d’évaluer la sûreté uniquement au tour un. Traitez la profondeur de conversation comme un axe d’évaluation explicite. Mesurez les taux de refus à la profondeur 0 et à des profondeurs d’exploitation réalistes, et conditionnez le déploiement au chiffre de démarrage à froid, car c’est ce qu’affronte un attaquant précoce.
Soyez délibéré sur les agents éphémères par requête. Créer un agent neuf et froid à chaque requête entrante est bon pour l’isolation mais place chaque requête dans l’état de sûreté le plus faible. Si vous utilisez ce schéma, associez-le à une séquence d’échauffement ou à un filtrage externe renforcé sur les premiers tours.
Gardez la sûreté hors du modèle pendant la fenêtre froide. Comme l’écart est maximal avant toute accumulation de contexte, ne vous reposez pas sur le seul refus au niveau du modèle en début de session. Placez le filtrage entrée/sortie, le contrôle des permissions d’outils et la validation humaine sur les premiers tours, les plus risqués.
Re-validez après chaque mise à jour. L’ampleur de l’écart variait selon les 7 modèles testés ; la profondeur d’échauffement suffisante pour un modèle peut ne pas se transférer. Re-mesurez la relation profondeur/sûreté sur la build exacte que vous déployez.

Statut

Élément	Détail
Papier	« The Cold-Start Safety Gap in LLM Agents »
ID arXiv	2606.07867 (cs.CL)
Publié	5 juin 2026
Auteurs	Chung-En Sun, Linbo Liu, Tsui-Wei Weng (Trustworthy-ML-Lab)
Benchmark	SODA (Safety Over Depth for Agents), jusqu’à 20 tâches préalables
Périmètre	7 modèles, 4 familles
Résultat clé	Sûreté en hausse de 9 à 52 % de 0 à 20 tâches anodines préalables
Moteur de l’effet	Les tâches anodines (pas les réponses de l’agent) portent le gain de sûreté
Vérifications croisées	AgentHarm, Agent Safety Bench (sûreté) ; BFCL, API-Bank (utilité)
Nature	Étude de mesure défensive — code publié, aucun payload d’exploitation