AGENTS MEDIUM NEW

La system card d'Opus 4.8 chiffre l'injection de prompt sur agent navigateur : 31,5 %

La system card de Claude Opus 4.8 (28 mai 2026) rapporte un taux de détournement pré-garde-fous de 31,5 % pour son agent navigateur — la seule métrique d'injection de prompt publiée par un grand laboratoire ce printemps.

2026-06-03 // 7 min affects: claude-opus-4-8

What is this?

Le 28 mai 2026, Anthropic a publié Claude Opus 4.8 accompagné d’une system card de 244 pages qui mesure le comportement du modèle sur quatre surfaces agentiques : navigation web, écriture de code, coordination entre agents et usage d’outils externes. La ligne qui a retenu l’attention est un chiffre unique. Lorsque les red teamers ont dirigé du contenu web adverse vers l’agent navigateur, ils l’ont détourné 31,5 % du temps — avant garde-fous. Il s’agit d’un taux de réussite d’injection de prompt mesuré contre le modèle brut, divulgué par l’éditeur dans son propre rapport de pré-déploiement.

Le chiffre lui-même n’est pas l’essentiel ; la divulgation l’est. Comme plusieurs médias l’ont noté, c’est la seule métrique concrète d’injection de prompt publiée par un grand laboratoire ce printemps. Selon la lecture des cards par Crypto Briefing, OpenAI n’a rendu compte que d’une seule surface (les connecteurs), Google a déplacé le sujet dans un document de cadre de sûreté distinct, et Meta n’a publié aucune card pour un modèle fermé. Nous traitons le sujet parce qu’une susceptibilité de base publiée est précisément ce dont les défenseurs ont besoin — et qu’ils obtiennent rarement.

How it works

Un agent navigateur est un LLM doté d’une boucle lire la page → décider → agir (cliquer, remplir, appeler un outil, récupérer une URL). L’injection de prompt dans ce contexte signifie que des instructions hostiles intégrées au contenu lu par l’agent — une page web, une réponse d’outil, un fichier, une charge utile d’API — sont interprétées comme des commandes plutôt que comme des données. Comme la sortie de l’agent alimente une couche d’action, une injection réussie passe de « mauvais texte » à « mauvaise action » : naviguer vers une URL de l’attaquant, exfiltrer le contenu d’une page ou enchaîner un appel d’outil. C’est le motif de la triade létale — entrée non fiable, accès à des données privées et canal d’exfiltration — instancié dans un navigateur.

Le chiffre de 31,5 % est une mesure pré-garde-fous. Il reflète la tendance intrinsèque du modèle à suivre des instructions injectées sans aucune couche défensive active. Aucune charge utile n’est reproduite ici ; ce qui compte, c’est le cadre de lecture :

Measurement                          What it tells you
-----------------------------------  ------------------------------------------
Pre-safeguard hijack rate (31.5%)    Raw model susceptibility — the worst case
                                     your guardrails must absorb
Post-safeguard rate (production)     Residual risk after filtering, monitoring,
                                     egress controls and approval gates
Capability score (Online-Mind2Web    How deep a successful injection can reach:
84%, per Anthropic)                  a more capable agent carries a bad
                                     instruction further into real systems

Deux éléments rendent cette base significative. D’abord, capacité et susceptibilité progressent ensemble : Anthropic situe Opus 4.8 à 84 % sur Online-Mind2Web, son meilleur résultat d’agent navigateur, ce qui signifie qu’une session détournée peut accomplir davantage avant d’être arrêtée. Ensuite, les déploiements de production ne sont pas le modèle brut — Anthropic indique que les déploiements réels ajoutent garde-fous, supervision et filtrage qui réduisent les taux d’exploitation réels. La lecture honnête est que 31,5 % est la charge que votre architecture de confinement doit absorber, pas le taux que vous livrez.

Why it matters

Pour les défenseurs, un chiffre pré-garde-fous publié par l’éditeur change la manière de spécifier un déploiement agentique. Une susceptibilité de base permet de raisonner sur le risque résiduel au lieu de deviner : si le modèle brut suit des instructions injectées environ une fois sur trois, vos garde-fous, contrôles d’exfiltration et points de validation font le gros du travail, et doivent être évalués comme tels.

Cela recadre aussi l’achat. Un titre de capacité (84 % de tâches accomplies) et un titre de susceptibilité (31,5 % de détournement pré-garde-fous) décrivent le même modèle et doivent être lus ensemble — plus d’autonomie plus un taux d’injection non négligeable signifie qu’une seule page empoisonnée peut aller plus loin. Et l’écart de transparence entre laboratoires compte en soi : quand un seul éditeur publie le chiffre, les acheteurs ne peuvent pas comparer les postures de sécurité des agents navigateurs, et « pas de divulgation » ne doit pas être confondu avec « pas de susceptibilité ».

Defenses

Le taux pré-garde-fous rappelle que la résistance au niveau du modèle est une couche, pas le périmètre. Traitez tout agent navigateur comme « confusable » et concevez l’architecture en conséquence.

Contrôlez l’exfiltration, pas seulement l’entrée. Supposez que certaines injections aboutiront. Restreignez où l’agent peut envoyer des données : liste blanche de domaines sortants, blocage des récupérations d’URL arbitraires comportant des données intégrées, validation explicite pour toute action inter-origine ou inter-système.
Limitez strictement identifiants et sessions. Jetons éphémères, scopes OAuth étroits, runtimes isolés, aucune session persistante. Un détournement dans un environnement étroitement cadré est un résultat de test contenu ; le même détournement avec un large accès aux fichiers ou aux dépôts est un incident.
Verrouillez les actions à fort impact. Placez une validation humaine devant les étapes irréversibles ou sensibles — envoi de données, exécution de transactions, écriture en production, suppression de fichiers. L’agent navigateur peut proposer ; une personne ou un moteur de politique confirme.
Séparez contenu non fiable et instructions. Appliquez l’intégrité contextuelle et des contrôles de flux d’information : étiquetez le contenu des pages et la sortie des outils comme des données, et ne les laissez jamais accéder au canal d’instruction qui pilote les actions.
Exigez les chiffres post-garde-fous. En évaluant un agent, demandez à l’éditeur le taux de détournement résiduel après ses défenses, ainsi que les données d’évasion de confinement et de gestion d’incident. Une base pré-garde-fous est le début de la conversation, pas la réponse.
Journalisez et relisez le flux d’actions. La piste d’audit — ce que l’agent a décidé et fait — est ce qui transforme une décision erronée du modèle en test détecté plutôt qu’en brèche silencieuse.

Status

Élément	Référence	Date	Notes
Sortie de Claude Opus 4.8	Anthropic	2026-05-28	Même prix qu’Opus 4.7 ; disponible partout
System card (244 p.)	Anthropic	2026-05-28	Quatre surfaces agentiques : navigation, code, inter-agents, outils
Taux de détournement pré-garde-fous (agent navigateur)	System card	2026-05-28	31,5 %, modèle brut, avant couches défensives
Capacité Online-Mind2Web	Anthropic	2026-05-28	84 % — meilleur résultat d’agent navigateur rapporté
Couverture / analyse de l’écart de transparence	Crypto Briefing, WinBuzzer	2026-06-01 → 2026-06-02	Seul grand laboratoire à publier un chiffre concret ce printemps

À retenir : non pas « l’agent navigateur de Claude n’est pas sûr » — tout agent navigateur est susceptible, et la plupart des éditeurs n’ont simplement pas publié de chiffre. À retenir plutôt que 31,5 % est la taille du problème que votre couche de confinement doit résoudre, et qu’une base pré-garde-fous publiée est le type d’artefact que les architectes sécurité devraient réclamer à chaque éditeur d’agent.