sistema: OPERATIVO
← volver a todos los hacks
AGENTS MEDIUM NEW

La system card de Opus 4.8 cuantifica la inyección de prompts en el agente de navegador: 31,5 %

La system card de Claude Opus 4.8 (28 de mayo de 2026) reporta una tasa de secuestro pre-salvaguardas del 31,5 % para su agente de navegador — la única métrica de inyección de prompts publicada por un laboratorio frontera esta primavera.

2026-06-03 // 7 min affects: claude-opus-4-8

What is this?

El 28 de mayo de 2026, Anthropic lanzó Claude Opus 4.8 junto con una system card de 244 páginas que mide el comportamiento del modelo en cuatro superficies agénticas: navegación web, escritura de código, coordinación entre agentes y uso de herramientas externas. La línea que captó la atención es una sola cifra. Cuando los red teamers dirigieron contenido web adversarial al agente de navegador, lo secuestraron el 31,5 % de las vecesantes de las salvaguardas. Es una tasa de éxito de inyección de prompts medida contra el modelo en bruto, divulgada por el propio proveedor en su informe previo al despliegue.

La cifra en sí no es lo importante; lo es la divulgación. Como señalaron varios medios, es la única métrica concreta de inyección de prompts que un laboratorio frontera puso por escrito esta primavera. Según la lectura de las cards de Crypto Briefing, OpenAI informó sobre una sola superficie (conectores), Google trasladó el tema a un documento de marco de seguridad aparte y Meta no publicó ninguna card para un modelo cerrado. Cubrimos el tema porque una susceptibilidad de base publicada es exactamente lo que los defensores necesitan — y rara vez obtienen.

How it works

Un agente de navegador es un LLM dotado de un bucle leer la página → decidir → actuar (clic, rellenar, llamar a una herramienta, recuperar una URL). La inyección de prompts en este contexto significa que instrucciones hostiles incrustadas en el contenido que lee el agente — una página web, una respuesta de herramienta, un archivo, una carga de API — se interpretan como comandos en lugar de como datos. Como la salida del agente alimenta una capa de acción, una inyección exitosa pasa de «texto incorrecto» a «acción incorrecta»: navegar a una URL del atacante, exfiltrar el contenido de una página o encadenar una llamada a herramienta. Es el patrón de la tríada letal — entrada no confiable, acceso a datos privados y canal de exfiltración — instanciado en un navegador.

La cifra del 31,5 % es una medición pre-salvaguardas. Refleja la tendencia intrínseca del modelo a seguir instrucciones inyectadas sin ninguna capa defensiva activa. No se reproduce ninguna carga útil aquí; lo que importa es el marco de lectura:

Measurement                          What it tells you
-----------------------------------  ------------------------------------------
Pre-safeguard hijack rate (31.5%)    Raw model susceptibility — the worst case
                                     your guardrails must absorb
Post-safeguard rate (production)     Residual risk after filtering, monitoring,
                                     egress controls and approval gates
Capability score (Online-Mind2Web    How deep a successful injection can reach:
84%, per Anthropic)                  a more capable agent carries a bad
                                     instruction further into real systems

Dos elementos hacen significativa esta base. Primero, capacidad y susceptibilidad suben juntas: Anthropic ubica a Opus 4.8 en el 84 % en Online-Mind2Web, su mejor resultado como agente de navegador, lo que significa que una sesión secuestrada puede hacer más antes de que algo la detenga. Segundo, los despliegues de producción no son el modelo en bruto — Anthropic indica que los despliegues reales añaden salvaguardas, supervisión y filtrado que reducen las tasas de explotación reales. La lectura honesta es que el 31,5 % es la carga que su arquitectura de contención debe absorber, no la tasa que usted despliega.

Why it matters

Para los defensores, una cifra pre-salvaguardas publicada por el proveedor cambia la forma de especificar un despliegue agéntico. Una susceptibilidad de base permite razonar sobre el riesgo residual en vez de adivinar: si el modelo en bruto sigue instrucciones inyectadas aproximadamente una de cada tres veces, sus salvaguardas, controles de exfiltración y puntos de aprobación están haciendo el trabajo pesado, y deben evaluarse como tales.

También reencuadra la compra. Un titular de capacidad (84 % de tareas completadas) y un titular de susceptibilidad (31,5 % de secuestro pre-salvaguardas) describen el mismo modelo y deben leerse juntos — más autonomía más una tasa de inyección no trivial significa que una sola página envenenada puede llegar más lejos. Y la brecha de transparencia entre laboratorios importa por sí misma: cuando solo un proveedor publica la cifra, los compradores no pueden comparar las posturas de seguridad de los agentes de navegador, y «sin divulgación» no debe confundirse con «sin susceptibilidad».

Defenses

La tasa pre-salvaguardas recuerda que la resistencia a nivel de modelo es una capa, no el perímetro. Trate a cualquier agente de navegador como «confundible» y diseñe la arquitectura en consecuencia.

  1. Controle la exfiltración, no solo la entrada. Asuma que algunas inyecciones tendrán éxito. Restrinja a dónde puede enviar datos el agente: lista blanca de dominios de salida, bloqueo de recuperaciones de URL arbitrarias con datos incrustados y aprobación explícita para cualquier acción entre orígenes o entre sistemas.

  2. Limite estrictamente credenciales y sesiones. Tokens de corta vida, alcances OAuth estrechos, runtimes aislados y ninguna sesión persistente. Un secuestro en un entorno estrechamente acotado es un resultado de prueba contenido; el mismo secuestro con amplio acceso a archivos o repositorios es un incidente.

  3. Proteja las acciones de alto impacto. Coloque aprobación humana frente a los pasos irreversibles o sensibles — envío de datos, ejecución de operaciones, escritura en producción, eliminación de archivos. El agente de navegador puede proponer; una persona o un motor de políticas confirma.

  4. Separe contenido no confiable de instrucciones. Aplique integridad contextual y controles de flujo de información: etiquete el contenido de las páginas y la salida de las herramientas como datos, y nunca permita que escalen al canal de instrucciones que impulsa las acciones.

  5. Exija las cifras post-salvaguardas. Al evaluar un agente, pida al proveedor la tasa de secuestro residual tras sus defensas, además de datos de fuga de contención y de gestión de incidentes. Una base pre-salvaguardas es el inicio de la conversación, no la respuesta.

  6. Registre y revise el flujo de acciones. El rastro de auditoría — qué decidió e hizo el agente — es lo que convierte una decisión errónea del modelo en una prueba detectada en lugar de una brecha silenciosa.

Status

ElementoReferenciaFechaNotas
Lanzamiento de Claude Opus 4.8Anthropic2026-05-28Mismo precio que Opus 4.7; disponible en todas partes
System card (244 p.)Anthropic2026-05-28Cuatro superficies agénticas: navegación, código, entre agentes, herramientas
Tasa de secuestro pre-salvaguardas (agente de navegador)System card2026-05-2831,5 %, modelo en bruto, antes de las capas defensivas
Capacidad Online-Mind2WebAnthropic2026-05-2884 % — mejor resultado de agente de navegador reportado
Cobertura / análisis de la brecha de transparenciaCrypto Briefing, WinBuzzer2026-06-01 → 2026-06-02Único laboratorio frontera en publicar una cifra concreta esta primavera

Lo que hay que retener: no que «el agente de navegador de Claude es inseguro» — todo agente de navegador es susceptible, y la mayoría de los proveedores simplemente no publicaron una cifra. Hay que retener más bien que el 31,5 % es el tamaño del problema que su capa de contención debe resolver, y que una base pre-salvaguardas publicada es el tipo de artefacto que los arquitectos de seguridad deberían exigir a todo proveedor de agentes.

Sources