DEFENSE MEDIUM NEW

La supervision a une capacité : quand plus d'approbations rend l'agent moins sûr

Un papier arXiv du 8 juin 2026 modélise le relecteur humain derrière la porte d'approbation d'un agent comme une ressource finie qui fatigue — et montre qu'escalader plus d'actions peut réduire la sécurité réelle et ouvrir une attaque par saturation.

2026-06-11 // 8 min affects: llm-agents, ai-coding-assistants, human-in-the-loop-guards

De quoi s’agit-il ?

Le 8 juin 2026, Emre Turan a publié sur arXiv (cs.AI, licence CC BY 4.0) Oversight Has a Capacity: Calibrating Agent Guards to a Subjective, Fatiguing Human, avec code et données ouverts sur github.com/turangenesis/headroom. Ce n’est pas un nouvel exploit. C’est la mesure d’une hypothèse de conception sur laquelle repose presque tout déploiement d’agent sans jamais la tester : la porte d’approbation humaine (human-in-the-loop).

À mesure que les agents LLM passent de la suggestion à l’exécution de code — deploy, rm -rf, push sur main, lecture d’un secret — les frameworks fournissent une primitive « mettre l’action risquée en pause et demander à un humain » (le interrupt() de LangGraph, et ses équivalents). L’argument du papier : la porte est la partie facile. La partie difficile, c’est la politique d’escalade qui décide quelles actions suspendre, et le domaine évalue cette politique au regard de deux hypothèses toutes deux fausses : que « risqué » possède une étiquette de vérité-terrain, et que le relecteur est un oracle parfait, toujours disponible.

Comment ça marche

L’auteur étiquette à la main 125 actions d’agent de codage pondérées de façon adverse, puis conduit trois mesures.

D’abord, il n’existe pas de vérité-terrain unique. Trois relecteurs-personas étiquetant les mêmes actions n’atteignent qu’un accord modéré (κ de Fleiss = 0,52) ; le persona « pragmatique » juge 87 actions sûres quand le persona « prudent » n’en juge que 45 sûres, le désaccord se concentrant sur le milieu contesté. Un garde-fou ne peut être noté contre une vérité objective unique — le plafond d’accord est l’étalon honnête.

Ensuite, formuler le garde-fou comme une classification sélective sous coût asymétrique rend ses limites mesurables. Sous un coût de 50:1 entre un blocage manqué et une fausse alerte, la politique minimisant le coût s’effondre vers « tout escalader » : atteindre zéro danger manqué exige un taux de fausses alertes proche de 100 %. Sur des entrées difficiles et ambiguës, le garde-fou ne peut tout simplement pas décider seul en sécurité ; il doit s’appuyer sur l’humain.

Enfin — le résultat phare — quand on modélise le relecteur comme endogène (fiable jusqu’à une capacité, puis fatigué à mesure que la charge d’escalade augmente), la sécurité réelle devient un U inversé en fonction du taux d’escalade. Escalader trop peu : le garde-fou autorise automatiquement le danger ; escalader trop : le relecteur surchargé valide machinalement. Le taux d’escalade optimal pour la sécurité se situe en deçà de l’escalade totale. Dans la simulation, à une capacité de relecteur de 25, l’optimum escalade 64 % des actions et laisse passer 42 % du danger, contre 57 % en escaladant tout. L’auteur précise explicitement qu’il s’agit d’un résultat de modélisation sur une courbe de fatigue plausible, pas d’une étude sur des humains.

Pourquoi c’est important

La même dynamique de fatigue est une surface d’attaque. Un adversaire enfouit une action malveillante dans un flux d’actions bénignes de « remplissage » ; chaque remplissage escaladé consomme l’attention du relecteur, si bien qu’au moment où l’appel malveillant surgit, l’humain fatigué clique sur Approuver. Sous une politique paranoïaque naïve (escalade de 88 % des actions de routine), le succès simulé de l’attaque grimpe vers un plafond de validation machinale d’environ 80 % — déjà 40 % à seulement 50 actions de remplissage. Une politique consciente de la charge, qui n’escalade que 26 %, garde le relecteur frais et maintient le succès de l’attaque à 0 % jusqu’à un volume de remplissage élevé (~2× la marge), après quoi il remonte lui aussi. La défense « achète de la marge, pas l’immortalité ».

Le recadrage pratique : la supervision d’un agent n’est pas seulement un problème de classification (« quelle action est risquée ? ») mais un problème d’allocation de ressources. L’attention humaine est finie, et une politique qui escalade les actions de routine dépense le budget dont l’action vraiment dangereuse aura besoin. Cela concerne quiconque exploite des agents de codage, des agents intégrés à la CI, ou tout système où un humain approuve des appels d’outils d’agent à grande échelle.

Défenses

Traiter le taux d’escalade comme un paramètre, pas un maximum. « Tout escalader » n’est pas le réglage sûr par défaut ; il peut être strictement pire qu’un taux intermédiaire dès que la fatigue du relecteur est réelle. Mesurez la courbe risque–couverture de votre garde-fou plutôt que de la deviner.
Adopter une escalade consciente de la charge. Supprimez les escalades sur les actions routinières et peu risquées afin de réserver l’attention du relecteur aux cas réellement ambigus — cela trouve à la fois l’optimum du U inversé et prive l’attaquant de la charge de remplissage nécessaire à une attaque par saturation.
Budgéter explicitement l’attention du relecteur. Plafonnez les escalades par relecteur et par vacation, faites tourner les relecteurs, et surveillez la profondeur de la file d’escalade comme un signal de sécurité — la même discipline anti-fatigue que les SOC matures appliquent déjà.
Cesser de présumer une étiquette « risqué » de vérité-terrain. Calibrez sur l’accord inter-relecteurs, acceptez un milieu contesté, et choisissez le point de fonctionnement avec une matrice de coûts explicite que vous documentez plutôt que d’ajuster en sous-main.
Choisir délibérément le modèle scoreur. La qualité du garde-fou dépend du modèle qui l’anime (le papier mesure un gain modeste de Sonnet sur Haiku), du seuil et du mélange d’attaques — donc re-mesurez dès que l’un d’eux change.

Statut

Le travail est une étude de modélisation et de mesure sur un unique jeu de 125 actions d’agent de codage, avec des personas tenant lieu d’annotateurs humains ; le U inversé et le résultat de saturation sont simulés à partir d’une courbe de fatigue documentée (mais pas encore ajustée empiriquement). L’auteur cite l’état de l’art — apprentissage à déférer sensible à la fatigue, déférence sensible au coût sous contrainte de charge, et attaques par fatigue d’alerte dans les SOC — et présente sa contribution comme l’opérationnalisation et la mesure conjointes de ces idées pour le contrôle d’actions d’agent. Le code et les données sont publics ; une étude humaine ajustant la courbe de fatigue est annoncée comme travail futur.