DEFENSE MEDIUM NEW

Taxonomía v2.0 de modos de fallo agénticos de Microsoft: la evasión zero-click del humano en el bucle

La taxonomía v2.0 del AI Red Team de Microsoft (4 de junio de 2026) añade siete modos de fallo agénticos y señala la evasión del humano en el bucle como la más explotada — incluidas cadenas zero-click a partir de una sola entrada externa.

2026-06-07 // 8 min affects: llm-agents, mcp-clients, computer-use-agents, multi-agent-systems, ai-coding-assistants

¿Qué es esto?

El 4 de junio de 2026, el AI Red Team de Microsoft (AIRT) publicó una actualización v2.0 de su Taxonomy of Failure Modes in Agentic AI Systems. La v1.0 original (abril de 2025) era en gran medida prospectiva, construida a partir de modelado de amenazas y entrevistas con profesionales. El informe técnico v2.0 es distinto: se basa en doce meses de ejercicios de red team contra sistemas agénticos desplegados, añade siete nuevos modos de fallo y cinco nuevas familias de mitigaciones, y cruza referencias con OWASP, CSA, MITRE, NIST y CoSAI.

El hallazgo más relevante a nivel operativo es empírico, no conceptual: a lo largo de un año de ejercicios, la evasión del humano en el bucle (HitL) fue el modo de fallo más explotado de forma consistente, y varios ejercicios produjeron cadenas zero-click de extremo a extremo que partían de una sola entrada externa y alcanzaban la exfiltración de datos o el movimiento lateral sin más interacción humana que el lanzamiento inicial del agente.

Cómo funciona

El marco del AIRT es que los ataques reales rara vez residen en un único modo de fallo: las cadenas compuestas son la norma. Las siete nuevas categorías describen las superficies que se encadenan:

Compromiso de la cadena de suministro agéntica — un plugin, servidor MCP, plantilla de prompt o descripción de herramienta envenenada inyecta instrucciones en lenguaje natural que alteran el comportamiento sin tocar ningún binario.
Secuestro de objetivo (goal hijacking) — texto adversario redirige en silencio el objetivo terminal del agente mientras este sigue pasando las comprobaciones de plausibilidad (ya observado en la práctica para el envenenamiento de recomendaciones de producto).
Escalada de confianza entre agentes — un problema de diputado confundido inducido mediante lenguaje natural, donde un orquestador confía en la identidad o los permisos autodeclarados de un subagente.
Ataque visual a los Computer Use Agents (CUA) — instrucciones ocultas en los píxeles que el agente captura (texto fuera del viewport, banners de bajo contraste, un falso botón «Aprobar») e inocuas para un revisor humano.
Contaminación del contexto de sesión — datos introducidos al inicio de una sesión larga sesgan el razonamiento posterior sin que ningún paso individual parezca anómalo.
Abuso de MCP / plugin — envenenamiento de descripción de herramienta, inyección de instrucciones del lado servidor y sobrescritura entre servidores donde un servidor malicioso reescribe el comportamiento de los de confianza.
Divulgación de capacidades / arquitectura — el agente revela nombres de herramientas, esquemas, la estructura del prompt de sistema o la lógica de disparo del HitL, convirtiendo el sondeo de caja negra en un plan de ataque de caja blanca.

Los mecanismos de evasión HitL reportados desde los ejercicios reales son el tejido conectivo. Los red teamers desgastaron la revisión mediante fatiga de consentimiento (prompts repetidos de bajo riesgo), explotaron la invocación probabilística (agentes que deciden cuándo preguntar) y emplearon la escalada incremental donde ningún paso aislado justificaba revisión pero el resultado compuesto sí. Una cadena representativa comienza con inyección entre dominios (XPIA) en un documento alojado en la web; la divulgación de capacidades filtra después el esquema de herramientas; un token de consentimiento falsificado pero válido según el esquema cuela una llamada de alto privilegio más allá de la aprobación. Las tuberías del agente hacen el resto. Esta es la lección arquitectónica detrás del lethal trifecta y del agents rule of two, ahora respaldada por doce meses de datos operativos.

Por qué importa

El valor está en el paso de la predicción a la prueba. La v1.0 planteaba hipótesis sobre la evasión HitL y el envenenamiento de memoria; la v2.0 informa de que XPIA y envenenamiento de memoria aparecieron con alta frecuencia y frecuentemente combinados, que la inyección entre dominios siguió siendo el vector de acceso inicial más fiable, y que la contaminación de sesión y la escalada incremental fueron a la vez muy eficaces y difíciles de detectar, porque ningún paso aislado es anómalo.

Dos consecuencias destacan para los defensores. Primero, la evaluación a nivel de modelo no las hará aflorar: las cadenas zero-click, la escalada de confianza entre agentes y la contaminación de sesión solo aparecen bajo pruebas a nivel de sistema, sobre flujos de tareas completos. Segundo, la divulgación de capacidades es el pivote — en muchas de las cadenas de mayor impacto del AIRT, la ejecución dependía primero de extraer detalles de arquitectura, lo que a menudo solo requería preguntar directamente al agente.

Defensas

Las mitigaciones de la v2.0 son arquitectónicas, y el AIRT es explícito: son difíciles de incorporar a posteriori. La lista corta obligatoria:

Trate los componentes agénticos como una cadena de suministro de software. Genere un SBOM que incluya plugins, servidores MCP, plantillas de prompt y descripciones de herramientas; exija verificación de firma/procedencia antes de instalar; escanee los registros en busca de instrucciones ocultas en las descripciones de herramientas, no solo de código malicioso; fije las versiones, porque incluso un parche menor puede cambiar el comportamiento en lenguaje natural de una herramienta.
Arquitectura entre agentes de confianza cero. Emita a cada agente una identidad atestiguable en el aprovisionamiento; vincúlela a cada mensaje y llamada de herramienta; verifique la cadena de identidad antes de cualquier decisión de privilegio. Nunca permita que un subagente se eleve mediante su autodescripción.
Endurezca la arquitectura de consentimiento — la UX es un control de seguridad. Haga la invocación HitL determinista (el agente no debe decidir cuándo preguntar), descomponga las acciones compuestas antes de la aprobación, resuma los avisos de aprobación a partir de las llamadas de herramienta subyacentes en lugar de la descripción del agente (para frenar el lavado de descripción), escale las aprobaciones según la reversibilidad y el radio de impacto, y aplique detección de anomalías en la frecuencia de aprobación para detectar la explotación por fatiga de consentimiento.
Endurecimiento de sesión adversaria. Etiquete cada token con su origen (sistema / usuario / recuperado / herramienta / entre agentes), separe estructuralmente el contenido de confianza del no fiable, vigile la amplificación del encuadre de un solo documento recuperado a través de los pasos de razonamiento, acote cuánto contenido externo puede orientar una sesión, y bloquee las llamadas de herramienta sensibles en cuanto datos no fiables hayan entrado en el contexto.
Prompts resistentes a la divulgación y filtrado de salida. Rechace de forma uniforme la introspección de la lista de herramientas, el prompt de sistema y los esquemas en todos los canales de entrada; escanee el contenido saliente (incluidas escrituras de memoria y mensajes entre agentes) en busca de huellas de esquema; resuelva el inventario de herramientas en tiempo de ejecución desde un registro no divulgable; y minimice la superficie privilegiada para que una fuga valga menos. Combínelo con defensas contra la inyección visual para las superficies CUA.

Estado

Elemento	Referencia	Fecha	Notas
Anuncio de la taxonomía v2.0	Microsoft Security Blog	2026-06-04	Basada en 12 meses de ejercicios de red team
Informe técnico v2.0	Microsoft AI Red Team	fechado abril 2026	7 nuevos modos de fallo, 5 familias de mitigaciones
Hallazgo principal	Evasión HitL	—	El más explotado de forma consistente; cadenas zero-click observadas
Nuevos modos	Cadena de suministro, secuestro de objetivo, escalada de confianza entre agentes, ataque visual CUA, contaminación de sesión, abuso MCP/plugin, divulgación de capacidades	—	Integrados en la estructura v1.0, etiquetados [New in v2.0]
Alineación con la industria	OWASP ASI, CSA, MITRE SAFE-AI, NIST AI 600-1, CoSAI	—	Referencias cruzadas, sin depender de un único marco
Base v1.0	Taxonomy of Failure Modes v1.0	2025-04	Predecesor prospectivo

La conclusión correcta no es un nuevo exploit, sino una calibración: un año de red teaming confirma que las defensas duraderas para los agentes son arquitectónicas — procedencia de la cadena de suministro, identidad de agente criptográfica, consentimiento determinista y escalonado, contexto etiquetado por origen — y que la vía más fiable para que los atacantes alcancen un alto impacto es eludir discretamente al humano que debía estar en el bucle.