GOVERNANCE MEDIUM NEW

Ningún laboratorio mide el prompt injection igual

Una comparación del 1 de junio de 2026 de las divulgaciones de prompt injection de Anthropic, OpenAI, Google y Meta revela que no comparten métrica, superficie ni definición de éxito — sus cifras no son comparables.

2026-06-05 // 6 min affects: claude-opus-4.8, chatgpt-atlas, gemini-3-pro, llama-guard

¿De qué se trata?

El 1 de junio de 2026, VentureBeat publicó una comparación de las divulgaciones sobre prompt injection que Anthropic, OpenAI, Google y Meta publicaron durante la primavera de 2026. El hallazgo no es un nuevo ataque: es un problema de medición. Ninguno de los cuatro laboratorios mide el prompt injection de la misma manera. Prueban superficies distintas, definen el «éxito» de forma distinta y reportan en capas distintas de la pila, por lo que un comprador no puede colocar sus cifras una al lado de la otra.

Esto importa porque el prompt injection se ha convertido en el riesgo principal de los sistemas agénticos, y 2026 es el primer año en que los laboratorios publican voluntariamente tasas de fallo. La trampa, como resume un segundo análisis del 1 de junio, es que «un modelo con una tasa de inyección baja según la definición de un laboratorio puede tener una exposición mayor según el diseño de prueba de otro». La transparencia llegó antes que la estandarización.

Cómo funciona

Las cuatro divulgaciones divergen en tres ejes: cuántas superficies se probaron, dónde se toma la medición y qué cuenta como una inyección exitosa.

Anthropic mostró lo más: una tarjeta de sistema de 244 páginas para Claude Opus 4.8 el 28 de mayo de 2026, cubriendo cuatro superficies agénticas (navegación, código, coordinación entre agentes, uso de herramientas). Su agente de navegador fue secuestrado el 31,5 % de las veces antes de las salvaguardas, bajando a aproximadamente el 1 % con las defensas activas (véase nuestra nota sobre la tasa de secuestro del agente de navegador de Opus 4.8).
OpenAI reportó esencialmente una superficie — los conectores — y plantea el problema como no acotado, afirmando que el prompt injection probablemente nunca se «resuelva» del todo para agentes de navegador como Atlas (Fortune, dic. 2025).
Google sacó el tema de su tarjeta de modelo y lo trasladó a un marco de seguridad separado, sin tasa de éxito publicada por superficie.
Meta no publicó ninguna tarjeta de modelo cerrado y calificó sus barreras de protección en lugar del modelo en sí.

Lab        Surfaces tested     Measurement layer      "Success rate" given?
---------  ------------------  ---------------------  ---------------------
Anthropic  4 (agentic)         pre- AND post-safeguard  Yes — per surface
OpenAI     1 (connectors)      product-level            Partial
Google     n/a in model card   separate framework       No per-surface rate
Meta       guardrail-only      guardrail layer          Grades guardrail, not model

El resultado es que un «31,5 %» de un laboratorio y una «tasa baja» de otro no son la misma unidad. Una es una propiedad del modelo antes de la mitigación; otra una propiedad del producto después de la mitigación; una tercera una puntuación de barrera de protección. No hay un conjunto de pruebas adversarias común, ni un modelo de amenaza compartido, ni una definición acordada de «secuestro». La analogía de VentureBeat es acertada: la brecha recuerda la divulgación de vulnerabilidades de software antes del sistema CVE — señales en bruto útiles, pero sin un esquema interoperable para compararlas.

Por qué importa

Para un equipo de seguridad que evalúa agentes para producción, la consecuencia práctica es que no se puede comprar basándose en las cifras anunciadas. Una tasa publicitada más baja puede reflejar una prueba más estrecha, una capa de medición más tardía o una definición más benévola — no un modelo más seguro. Compararlas directamente produce una clasificación falsa.

También distorsiona los incentivos. Un laboratorio que prueba cuatro superficies y publica tasas antes y después de las salvaguardas parecerá «peor» en una lectura ingenua que uno que solo califica su barrera de protección y reporta una cifra limpia. Premiar el segundo comportamiento en lugar del primero empuja a todo el sector hacia menos divulgación, no más — lo contrario de lo que los defensores necesitan. Es un problema de gobernanza, no un fallo del modelo, y es exactamente lo que marcos como NIST AI RMF, OWASP Top 10 para LLM o MITRE ATLAS existen para corregir. A día de hoy, ningún regulador exige un formato común de reporte para las vulnerabilidades de agentes; las cuatro divulgaciones son voluntarias.

Defensas

No se puede parchear una brecha de medición, pero sí se puede dejar de ser engañado por ella.

Nunca compare las tasas anunciadas entre proveedores. Trate cada cifra como válida solo dentro de su propia metodología. Una tasa de modelo del 31,5 % antes de salvaguardas y una puntuación de barrera «baja» son unidades distintas — rechace clasificarlas una contra otra.
Exija la metodología, no la cifra. Antes de desplegar un agente en un flujo sensible, solicite: qué superficies se probaron, si la tasa es antes o después de la mitigación, la definición de inyección exitosa y el corpus de prueba. Si el proveedor no lo comparte, trate la cifra como marketing.
Normalice según sus propias superficies. Proyecte cada divulgación sobre las superficies que usted expone realmente — navegador, ejecución de código, llamadas a herramientas/conectores, entre agentes. La cifra de «conector» de un modelo es irrelevante si su despliegue solo navega, y viceversa.
Haga sus propias pruebas de inyección en la capa de producto, tras la mitigación. Las tasas del proveedor antes de salvaguardas describen el modelo en bruto; lo que usted despliega es el modelo más sus barreras, su prompt de sistema y su acotamiento de herramientas. Vuelva a medir sobre su pila con un corpus fijo que usted controle, en cada actualización de modelo.
Adopte ya un marco común internamente. Hasta que llegue un estándar sectorial, elija una taxonomía de referencia (OWASP LLM01, MITRE ATLAS) y exija que toda divulgación de proveedor y toda prueba interna se reexpresen en ella. Así obtiene una hoja comparable aunque las fuentes no lo sean.
Asuma el techo, no el suelo. Tanto OpenAI como investigadores independientes describen el prompt injection como una clase duradera, quizá insoluble. Diseñe para el caso en que el agente será inyectado — mínimo privilegio, confirmación humana en acciones sensibles, sin trifecta letal — en lugar de confiar en una sola tasa publicada.

Estado

Laboratorio	Divulgación	Fecha	Qué reporta
Anthropic	Tarjeta de sistema Claude Opus 4.8 (244 pp.)	2026-05-28	4 superficies agénticas; navegador 31,5 % antes de salvaguardas, ~1 % después
OpenAI	Guía de conectores / Atlas	Primavera 2026	Una superficie; inyección planteada como no resoluble
Google	Marco de seguridad separado	Primavera 2026	Sin tasa de éxito por superficie en la tarjeta de modelo
Meta	Evaluación de barreras	Primavera 2026	Califica la barrera, no el modelo subyacente
VentureBeat	Comparación entre laboratorios	2026-06-01	Sin métrica, superficie ni definición de éxito comunes

La conclusión correcta no es «el laboratorio X es el más seguro». Es que el sector empezó a publicar cifras de prompt injection más rápido de lo que acordó qué significan — y hasta que exista un esquema común al estilo CVE para las divulgaciones de agentes, el trabajo de comparación recae en el comprador. Pida la metodología, normalice según sus propias superficies y mida sobre su propia pila.