AGENTS CRITICAL NEW

Agentes de código IA: los atacantes van por la credencial, no por el modelo

Seis exploits de 2026 contra Codex, Claude Code, Copilot y Vertex AI esquivaron las defensas a nivel de modelo y alcanzaron el mismo objetivo: las credenciales de ejecución del agente. La causa raíz es una brecha de gobernanza de identidades, no un problema de prompt.

2026-06-17 // 7 min affects: codex, claude-code, github-copilot, vertex-ai, cursor

¿Qué es esto?

A lo largo de un período de nueve meses que terminó en la primavera de 2026, seis equipos de investigación distintos divulgaron exploits contra los agentes de código IA más desplegados — OpenAI Codex, Anthropic Claude Code, GitHub Copilot y Google Vertex AI. Una síntesis de VentureBeat publicada el 30 de abril de 2026 hace explícito el patrón: ninguno de estos ataques apuntó a la salida del modelo. Todos alcanzaron el mismo premio — la credencial de ejecución que el agente posee para autenticarse ante los sistemas de producción.

Esto reencuadra la amenaza. El relato dominante en seguridad de LLM trata sobre manipular lo que el modelo dice (prompt injection, jailbreaks). Estas divulgaciones tratan sobre lo que el agente posee: un token OAuth, una identidad de cuenta de servicio, una sesión de shell. El agente se autenticaba ante GitHub, Google Cloud o la máquina de un desarrollador sin ninguna sesión humana que anclara la solicitud, y fue la credencial — no el modelo — la brecha.

Cómo funciona

El ejemplo más claro es la falla de inyección de comandos en Codex divulgada por BeyondTrust Phantom Labs el 30 de marzo de 2026 (advisory, Decipher). El contenedor en la nube de Codex clonaba repositorios usando un token OAuth de GitHub incrustado en la URL remota de git, y un nombre de rama controlado por el atacante fluía sin sanear hacia un script shell de configuración. Para ocultar la rama maliciosa en el portal web, los investigadores añadieron 94 caracteres de espacio ideográfico (Unicode U+3000) tras main, de modo que se mostraba idéntica a la rama real. OpenAI la clasificó como Crítica P1 y completó la remediación el 5 de febrero de 2026, tras una divulgación iniciada el 16 de diciembre de 2025.

La misma forma se repite entre proveedores, según el reportaje de VentureBeat:

Claude Code — CVE-2026-25723 permitía que comandos encadenados escaparan del sandbox de escritura (corregido en 2.0.55); CVE-2026-33068 cargaba los permisos de .claude/settings.json antes del diálogo de confianza del espacio de trabajo, de modo que un repositorio malicioso podía fijar bypassPermissions sin que apareciera el aviso (corregido en 2.1.53). Adversa constató por separado que la aplicación de las reglas de denegación se descartaba silenciosamente cuando un comando superaba 50 subcomandos (corregido en 2.1.90).
GitHub Copilot — CVE-2025-53773: instrucciones ocultas en la descripción de una pull request activaban la auto-aprobación en .vscode/settings.json, habilitando la ejecución de shell (corregido en la actualización de Microsoft de agosto de 2025). Orca Security exfiltró por separado un GITHUB_TOKEN privilegiado desde un flujo de Codespaces mediante una issue de GitHub.
Vertex AI — Unit 42 constató que la identidad de servicio por defecto (P4SA) adjunta a cada agente tenía permisos excesivos, alcanzando buckets de Cloud Storage y repositorios de Artifact Registry propiedad de Google.

En cada caso, la defensa a nivel de modelo o de sandbox existía y fue esquivada; la credencial subyacente seguía siendo accesible.

Por qué importa

Los agentes de código IA son en gran medida invisibles para la gestión de identidades y accesos (IAM). Las empresas inventarían identidades humanas y rotan sus credenciales, pero la mayoría carece de categoría en el CMDB, de incorporación a PAM y de controles de ciclo de vida para los tokens OAuth y cuentas de servicio que estos agentes reciben en la instalación. Estos agentes suelen poseer más privilegios que el desarrollador, porque los permisos se aprovisionan por rapidez y amplitud. Dos amplificadores agravan el problema: los parches se someten a ingeniería inversa en unas 72 horas, mientras que un agente reduce la ventana de explotación a segundos; y entradas no confiables que la cadena nunca trató como código — nombres de rama, descripciones de PR, issues de GitHub, archivos de configuración — se convierten en la superficie de inyección.

Defensas

Las mitigaciones son disciplinas de gobernanza de identidades, no ajustes del modelo:

Inventaríe cada identidad de agente. Liste cada agente de código IA (Codex, Claude Code, Copilot, Cursor, Gemini Code Assist, Windsurf) y los scopes OAuth y cuentas de servicio exactos que posee. Cree una categoría de identidad no humana en su CMDB si no existe.
Limite al mínimo privilegio y rote. Migre Vertex AI a un modelo de cuenta de servicio aportada por el cliente; incorpore las credenciales de agente a PAM/IGA con rotación y separación de funciones entre el agente que escribe el código y el que lo despliega.
Reduzca la identidad del agente a la del humano. Un agente que actúa en su nombre nunca debería superar sus propios privilegios, y sus acciones deberían estar ligadas a una sesión humana verificada.
Trate los metadatos del repositorio como entrada no confiable. Monitorice nombres de rama, descripciones de PR, issues y cambios en .vscode/settings.json o .claude/settings.json en busca de cambios de modo de permiso, encadenamiento de comandos y ofuscación Unicode (U+3000).
Aplique los parches. Claude Code ≥ 2.1.90; verifique el parche de Copilot de agosto de 2025; confirme la remediación de Codex.

Estado

Proveedor / producto	Problema	Divulgación	Corrección
OpenAI Codex	Inyección de comandos vía nombre de rama → robo de token de GitHub	30 mar 2026 (BeyondTrust)	Remediado el 5 feb 2026
Claude Code	Escape del sandbox `CVE-2026-25723`; bypass del diálogo de confianza `CVE-2026-33068`; bypass por 50 subcomandos	2026	2.0.55 / 2.1.53 / 2.1.90
GitHub Copilot	Inyección vía descripción de PR `CVE-2025-53773`; exfiltración de token en Codespaces (Orca)	2025–2026	Actualización de agosto de 2025
Google Vertex AI	Identidad de servicio P4SA por defecto con permisos excesivos	2026 (Unit 42)	Cuenta de servicio aportada por el cliente

El hilo conductor: cada proveedor entregó una defensa, y cada defensa fue esquivada a nivel de la credencial. Hasta que los agentes de código IA se gobiernen con el mismo rigor que las identidades humanas privilegiadas, no es el modelo la superficie de ataque — es el agente.