OWASP State of Agentic AI Security 2026: la inyección de prompts conecta la mayoría de los fallos de agentes
El informe OWASP State of Agentic AI Security and Governance v2.01 (1 de junio de 2026) pasa de amenazas hipotéticas a CVE y brechas documentadas. La inyección de prompts cubre ya seis de las diez categorías de riesgo agéntico.
¿Qué es esto?
El 1 de junio de 2026, el OWASP GenAI Security Project publicó la versión 2.01 de su informe State of Agentic AI Security and Governance. El cambio respecto a la edición de 2025 es lo relevante: donde el informe anterior catalogaba amenazas plausibles, la edición de 2026 cataloga CVE reales, avisos de proveedores e informes de brechas vinculados a casi todas las categorías de riesgo agéntico (Help Net Security, 11 de junio de 2026). Las amenazas dejaron de ser teóricas.
Es un documento defensivo de panorama —una síntesis de lo que realmente salió mal en producción en despliegues de agentes durante el último año— y no una guía de ataque. Se estructura en torno al Top 10 de OWASP para aplicaciones agénticas (2026), las diez categorías ASI, desde Agent Goal Hijack (ASI01) hasta Rogue Agents (ASI10).
Cómo funciona
El hallazgo central del informe es que una técnica actúa como junta universal en todos los datos de incidentes: la inyección de prompts, que OWASP asigna a seis de las diez categorías agénticas.
La causa raíz es arquitectónica, no un fallo corregible. Un modelo de lenguaje trata el system prompt, la petición del usuario y cualquier texto recuperado de fuentes externas como un único flujo indiferenciado de tokens. No existe una frontera fiable que marque unos tokens como comandos y otros como datos. Por ello, un texto hostil colado en un documento, una invitación de calendario o una página web puede portar la misma autoridad que una instrucción legítima del operador.
El informe se apoya en dos heurísticas que los profesionales ya usan:
Tríada letal (Simon Willison) Regla de Dos para agentes (Meta)
----------------------------------- ---------------------------------------
Un agente que combina las tres: Tratar las tres propiedades de la
1. acceso a datos privados tríada como un presupuesto. Un agente
2. exposición a contenido no fiable que actúa SIN aprobación humana puede
3. capacidad de comunicarse hacia satisfacer como mucho DOS. Combinar
el exterior las tres exige un humano en el bucle.
puede convertirse en herramienta de
exfiltración con un solo prompt
inyectado.
Donde se concentran los datos es en los agentes de código. De 53 proyectos agénticos que OWASP rastrea, 28 son agentes de código, y las cinco herramientas de mayor crecimiento (Claude Code, Gemini CLI, Codex, Cline, Aider) están todas en esa categoría. La velocidad de publicación dificulta el triaje: siete proyectos rastreados lanzan actualizaciones a diario o más rápido, un ritmo para el que el análisis de composición de software tradicional nunca fue diseñado.
Por qué importa
Los incidentes documentados muestran que la cadena de suministro se convirtió en el blanco fácil: los atacantes aprendieron que el camino más barato es envenenar algo en lo que el agente ya confía:
- Capa de protocolo. Investigadores detectaron el primer servidor Model Context Protocol malicioso en circulación; el paquete
postmark-mcppublicó quince versiones limpias para construir legitimidad antes de añadir una sola línea de código de exfiltración (contexto de inyección en MCP). - Capa de agente. La CVE-2026-22708 (Cursor) permitió envenenar el entorno de ejecución para que comandos en lista blanca como
git branchentregaran cargas arbitrarias —la lista blanca facilitó el ataque al autoaprobar justo lo que el atacante necesitaba. - Capa de paquete. Un bot autónomo obtuvo el token de PyPI de LiteLLM mediante una configuración de CI comprometida y publicó versiones con puerta trasera; una ventana de marzo de 2026 registró ~47.000 descargas en tres horas.
OWASP también sostiene que, para sistemas que actúan de forma autónoma sobre datos de producción, la safety y la security de la IA ya no pueden vivir en equipos separados. El incidente de Replit en 2025 citado —un asistente que borró una base de datos de producción pese a la orden de no cambiar nada— no tenía atacante, y sin embargo el modelo de permisos tras ese fallo es el mismo que un atacante explotaría mediante inyección. Contener el fallo de safety y cerrar la brecha de security resultan ser el mismo trabajo.
Defensas
El informe y sus marcos subyacentes apuntan a mitigaciones concretas y por capas:
- Aplicar la Regla de Dos. Para cualquier agente sin supervisión, nunca dejar que tenga a la vez acceso a datos privados, exposición a contenido no fiable y un canal de salida externo. Romper una pata de la tríada o insertar aprobación humana.
- Tratar todo contenido recuperado como datos no fiables, nunca como instrucciones. Usar minimización de contexto, «spotlighting» / delimitación del texto externo y restricciones de salida para que los tokens recuperados no puedan escalar a comandos.
- Endurecer la cadena de suministro. Fijar y verificar servidores MCP y paquetes, acotar y rotar tokens de publicación de CI, y asumir que las listas blancas pueden ser convertidas en arma —validar el comando resuelto, no solo su nombre.
- Limitar el radio de impacto. Ámbitos de herramientas con mínimo privilegio, ejecución en sandbox y filtrado de egress limitan lo que un agente secuestrado puede hacer o enviar.
- Unificar la responsabilidad de safety y security para los agentes en producción, y desplegar detección de shadow AI —según los datos de IBM citados, solo el 37 % de las organizaciones tiene una política para detectarlo.
- Vigilar el reloj. El informe rastrea 42 instrumentos regulatorios en 10 jurisdicciones; las ventanas de notificación se estrechan (DORA 4 horas, NIS2 aviso temprano de 24 horas, RAISE Act de Nueva York 72 horas, SB 53 de California quince días).
Estado
| Elemento | Detalle | Fecha |
|---|---|---|
| OWASP State of Agentic AI Security & Governance | v2.01, público | 1 de junio de 2026 |
| Análisis de Help Net Security | Síntesis independiente | 11 de junio de 2026 |
| Top 10 de OWASP para aplicaciones agénticas | ASI01–ASI10, edición 2026 | 2026 |
| Cobertura de inyección de prompts | Asignada a 6 de 10 categorías ASI | 2026 |
El informe se puede descargar gratuitamente desde el OWASP GenAI Security Project. Ninguna de las mitigaciones anteriores requiere herramientas propietarias: son decisiones de arquitectura y organización al alcance de cualquier equipo que opere agentes hoy.
Sources
- → https://genai.owasp.org/resource/state-of-agentic-ai-security-and-governance/
- → https://www.helpnetsecurity.com/2026/06/11/owasp-prompt-injection-ai-security-failures/
- → https://genai.owasp.org/resource/owasp-top-10-for-agentic-applications-for-2026/
- → https://ai.meta.com/blog/practical-ai-agent-security/
- → https://simonwillison.net/2025/Apr/9/mcp-prompt-injection/