AI Agent Traps: el mapa de seis categorías de DeepMind sobre cómo la web secuestra a los agentes
El paper «AI Agent Traps» de Google DeepMind (SSRN, finales de marzo de 2026) ofrece la primera taxonomía sistemática del contenido web adversario que ataca la percepción, el razonamiento, la memoria, la acción, la dinámica multiagente y al supervisor humano de un agente.
¿Qué es esto?
AI Agent Traps es un paper marco de Google DeepMind —firmado por Matija Franklin, Nenad Tomašev, Julian Jacobs, Joel Z. Leibo y Simon Osindero— publicado en SSRN a finales de marzo de 2026. Los autores definen una «trampa de agente» como contenido adversario insertado en una página web, un documento o una respuesta de API, diseñado para desorientar o explotar al agente de IA que lo procesa. La clave, en sus palabras, es que «al alterar el entorno en lugar del modelo, la trampa convierte las propias capacidades del agente en un arma contra él». Se presenta como el primer catálogo sistemático de esta clase de amenaza, y cada categoría se apoya en pruebas de concepto ya publicadas, no en ataques nuevos.
El valor de contar con una referencia única: la seguridad de agentes ha acumulado decenas de hallazgos aislados (inyección indirecta, envenenamiento de memoria, abuso de herramientas). Este paper los organiza según qué parte del bucle del agente atacan, lo que hace legible la superficie de ataque para el modelado de amenazas.
Cómo funciona
La taxonomía tiene seis categorías, cada una dirigida a una etapa distinta del ciclo de un agente:
- Trampas de inyección de contenido (percepción). Instrucciones ocultas en comentarios HTML, CSS, metadatos de imagen o etiquetas de accesibilidad —invisibles para un revisor humano, interpretadas como comandos por el agente—. El paper cita el benchmark WASP, donde inyecciones simples escritas por humanos en contenido web secuestraron parcialmente a los agentes en hasta el 86 % de los escenarios probados.
- Trampas de manipulación semántica (razonamiento). Sin comando explícito: en su lugar, encuadre, falsas señales de autoridad o texto con fuerte carga emocional que explotan los mismos sesgos de anclaje y encuadre que afectan a las personas, de modo que reformular hechos idénticos cambia la conclusión del agente.
- Trampas de estado cognitivo (memoria). Envenenamiento del almacén de recuperación que el agente vuelve a leer entre sesiones. Trabajos citados muestran que inyectar un puñado de documentos optimizados —menos del 0,1 % de una base de conocimiento— puede redirigir consultas concretas con tasas de éxito superiores al 80 %.
- Trampas de control conductual (acción). Secuestro directo de la capa de acción: jailbreaks incrustados, comandos de exfiltración y generación de subagentes. El paper documenta un caso de M365 Copilot en el que un único correo manipulado llevó al sistema a saltarse sus clasificadores y filtrar todo su contexto privilegiado; los ataques de generación de subagentes se citan con un éxito del 58 al 90 %.
- Trampas sistémicas (multiagente). Entradas diseñadas para desencadenar un fallo a escala de red: ataques de congestión, cascadas de interdependencia inspiradas en el «flash crash» de 2010 y trampas fragmentadas composicionales que dispersan una carga útil entre fuentes de apariencia inocua, la cual solo se ensambla cuando los agentes las agregan.
- Trampas «human-in-the-loop» (el supervisor). Salidas diseñadas para inducir fatiga de aprobación, resúmenes densos que un no experto valida sin escrutinio, o enlaces de recomendación que en realidad son phishing —convirtiendo al agente en un arma contra su propio supervisor—.
Punto decisivo: las trampas se combinan. Pueden encadenarse, superponerse o distribuirse, razón por la que los autores sostienen que las defensas caso por caso son insuficientes. Aquí no se reproduce ningún payload operativo.
Por qué importa
Este enfoque desplaza la frontera de seguridad del «prompt» a «todo el entorno informativo que el agente toca». Es de gran calado, porque la mayoría de los controles desplegados asumen un único canal de entrada de confianza. Un agente que navega, lee correo, consulta una base de conocimiento y genera subagentes dispone de al menos cuatro superficies de inyección independientes; y la categoría sistémica muestra que el radio de impacto no se limita a un solo agente: flotas homogéneas de agentes de trading, de código o de soporte pueden ser dirigidas en conjunto. El sector financiero se menciona explícitamente, dado lo integrados que ya están los agentes algorítmicos en la infraestructura de mercado.
Defensas
El paper propone una respuesta coordinada en tres niveles, que sirve también como lista de comprobación práctica:
- Técnico. Entrenamiento adversario durante el desarrollo del modelo; en ejecución, superponer filtros de origen (rechazar fuentes no confiables), escáneres de contenido (detectar instrucciones ocultas antes de la ingesta) y monitores de salida capaces de suspender al agente a mitad de tarea ante un comportamiento anómalo. Tratar la memoria recuperada y los resultados de herramientas como datos no confiables, no como instrucciones.
- Ecosistema. Estándares web que permitan a los sitios señalar explícitamente el contenido destinado al consumo por IA, junto con sistemas de reputación de dominio para que los agentes ponderen la fiabilidad de las fuentes —por analogía con los coches autónomos, que deben rechazar señales de tráfico manipuladas—.
- Gobernanza. Los autores señalan un vacío de responsabilidad: cuando un agente secuestrado comete un delito financiero, el reparto de responsabilidad entre operador, proveedor del modelo y propietario del dominio queda indefinido. También advierten de que la mayoría de las categorías de trampa carecen de benchmarks estandarizados, por lo que la robustez en producción está en gran medida sin medir.
En el plano de ingeniería, los controles complementarios encajan en la lógica del «lethal trifecta»: extreme la cautela cuando un agente combina contenido no confiable, memoria persistente y capacidad de actuar o exfiltrar; acote los privilegios por tarea; y exija confirmación humana donde el radio de impacto sea grande.
Estado
Se trata de una taxonomía académica publicada por un laboratorio reconocido, no de una vulnerabilidad en un producto concreto; no se divulga ningún payload de explotación. El paper se publicó en SSRN a finales de marzo de 2026 y fue recogido por medios independientes a principios de abril de 2026, lo que sitúa la fuente cómodamente dentro de los últimos ~90 días. Quienes construyen sistemas expuestos a la web y multiagente deberían usar estas seis categorías como rejilla de modelado de amenazas y partir de que cualquier superficie del entorno que un agente lea —página, documento, memoria, salida de herramienta o mensaje de otro agente— es una posible trampa.