RESEARCH MEDIUM NEW

Por dónde entran realmente los ataques a los agentes: un mapa de 247 papers

Un estudio de junio de 2026 sobre 247 papers mide dónde aterrizan los ataques a los agentes LLM. El prompt del usuario es solo una superficie más: dominan los canales mediados, como el contenido web y las salidas de herramientas.

2026-06-18 // 8 min affects: llm-agents, tool-using-agents, web-agents, coding-agents, multi-agent-systems

¿De qué se trata?

En junio de 2026 se publicó un artículo de sistematización del conocimiento titulado Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation (arXiv:2606.10749). Sintetiza 247 papers mediante un marco basado en el ciclo de vida y orientado a sistemas, y hace algo que la mayoría de las listas de amenazas no hace: cuenta por dónde entran realmente los ataques en el bucle del agente. El resultado es un mapa medido de la superficie de ataque de los agentes a mediados de 2026, y no otra taxonomía de nombres de ataques.

La conclusión principal para los defensores corrige una intuición. El reflejo es tratar el prompt del usuario como la entrada peligrosa. El corpus indica que el prompt del usuario es solo una superficie más, y que el riesgo más característico llega a través de canales mediados: las páginas web que el agente consulta, las salidas que devuelven las herramientas que invoca y los documentos que aporta la recuperación (retrieval).

Es una instantánea de la concentración de la investigación, no una clasificación definitiva de todos los riesgos reales. Pero esa concentración es útil en sí misma: señala dónde ha decidido el campo que están las debilidades estructurales.

Cómo funciona

El estudio organiza la seguridad de los agentes en torno a tres propiedades en interacción: el flujo de información, la autoridad delegada y el estado persistente. En lugar de preguntar solo qué entrada vio el agente, pregunta qué se le permite hacer ahora porque la vio. Los ataques se localizan entonces según su punto de entrada en el bucle y la transición que explotan.

Cuando el corpus se codifica por superficie de amenaza, la distribución es concreta (un paper puede tocar varias superficies):

Superficie de amenaza     Papers      Significado
──────────────────        ──────      ─────────────────────────────────
Prompts de usuario        82          Instrucciones directas del usuario
Contenido web             55          Páginas obtenidas al navegar
Salidas de herramientas   54          Resultados de una herramienta/API
Contenido recuperado      37          Evidencia del RAG / los índices
Archivos / Código         >=25        Artefactos locales leídos, ejecutados
Bucle de planificación    >=25        Razonamiento intermedio / trayectoria
Memoria / Borradores      >=25        Estado que el agente retiene para luego
Canales entre agentes     >=25        Mensajes intercambiados entre agentes

«Prompts de usuario» es la superficie más frecuente con 82 papers, pero Contenido web (55), Salidas de herramientas (54) y Contenido recuperado (37) describen juntos una superficie de ataque mucho mayor y mediada. Estos canales transportan contenido relevante para la tarea pero sin autoridad: el agente lo ingiere como evidencia y luego trata las instrucciones incrustadas como ejecutables. Ese es el fallo central: la pérdida de separación entre datos y control, y entre una observación de baja autoridad y una instrucción de alta autoridad.

El recuento de familias de ataque confirma la misma forma. En la codificación del modelo de amenaza, la inyección de prompts aparece en 142 papers y la inyección indirecta en 86. Desglosado por escenario de despliegue, la navegación web muestra inyección de prompts 71 veces e inyección indirecta 44 veces; los agentes de ingeniería de software, 32 y 16. La inyección de prompts no es un ataque más en esta literatura: es el mecanismo dominante por el cual el contenido no fiable se convierte en control peligroso. Coincide con lo que los profesionales informaron de forma independiente en junio de 2026: la inyección de prompts sigue causando la mayoría de los fallos agénticos vistos en producción.

El segundo aporte del estudio es presentar los eventos más peligrosos como transiciones, no como componentes. El daño suele producirse cuando contenido no fiable se reinterpreta como una restricción de planificación, cuando un plan tentativo se convierte en una acción comprometida, o cuando una traza almacenada se reutiliza después como contexto de confianza. Por eso el envenenamiento de memoria y el contagio multiagente se señalan como la frontera emergente: son formas retardadas y propagativas del mismo problema de flujo de control.

Por qué importa

Tres conclusiones concretas.

El campo es joven y dominado por preprints: calibre su confianza. El corpus pasa de 3 papers en 2023 a 42 en 2024 y 121 en 2025, con 81 más hasta el 27 de abril de 2026 (32,79 % del total). arXiv representa 169 papers (68,42 %). La terminología, los modelos de amenaza y los protocolos de evaluación aún se mueven. Trate cada afirmación como una observación fechada y versionada, no como un resultado consolidado, que es justo la disciplina que el propio estudio recomienda.

La evidencia se centra en el agente único, pero el riesgo multiagente crece. Los sistemas de agente único suman 200 papers (80,97 %); los multiagente, 47 (19,03 %). La cuota multiagente sube del 9,52 % en 2024 al 23,97 % en 2025. Si su hoja de ruta incluye agentes que delegan en otros agentes o les pasan mensajes, está entrando en la parte de la superficie de amenaza menos cubierta por la base de evidencia actual: canales entre agentes, fallos de coordinación y propagación de instrucciones maliciosas de un agente a otro.

Las defensas no se componen y los benchmarks omiten los casos difíciles. El estudio concluye que las defensas actuales son piezas útiles pero débilmente componibles, y que los benchmarks existentes subrepresentan los riesgos de horizonte largo, con estado y sensibles al despliegue. En la práctica, una buena puntuación en un benchmark de inyección de un solo turno dice poco sobre cómo resistirá un agente con estado, con herramientas y de múltiples pasos.

Defensas

Las recomendaciones del estudio se traducen directamente en una lista de verificación arquitectónica. Ninguna es un exploit inédito que temer; son fronteras que construir.

Trate los canales mediados como no fiables por defecto. El contenido web, las salidas de herramientas y los documentos recuperados transportan datos, no instrucciones. Elimine o ponga en cuarentena cualquier contenido de tipo instrucción de esas superficies antes de que llegue al contexto de planificación, y nunca deje que un texto recuperado o navegado vuelva a entrar en el bucle como directiva.
Imponga una jerarquía de instrucciones explícita y legitimidad de origen. El fallo estructural es que el agente trata observaciones de baja autoridad como órdenes de alta autoridad. Etiquete cada segmento según su procedencia (usuario, herramienta, web, memoria) y haga que la política del modelo dependa de esa etiqueta, de modo que el origen —y no solo el contenido— gobierne lo que es ejecutable.
Coloque el control de privilegios en la frontera de acción. Como el agente actúa bajo una autoridad delegada que el atacante no posee, el control duradero está en la ejecución de herramientas: comprobaciones de capacidad por acción, mínimo privilegio por herramienta y confirmación humana para acciones de alto impacto. Esto restringe la peligrosa transición plan a acción en vez de intentar depurar perfectamente cada entrada.
Haga que el estado persistente sea consciente de su procedencia. La memoria y los borradores son un canal de flujo de control retardado: contenido envenenado escrito hoy puede recuperarse mañana como contexto «de confianza». Registre el origen de cada memoria, hágala caducar o revalídela, y nunca promueva automáticamente una traza almacenada a instrucción de confianza.
Vigile el trío letal. La combinación clásica de alto riesgo —acceso a datos privados, exposición a contenido no fiable y una vía de comunicación externa— sigue siendo la configuración que evitar o controlar estrechamente, como la formuló Simon Willison. El mapa de los 247 papers es, en esencia, el relato detallado de cómo se explota ese trío a través de las superficies.
Evalúe con la forma de despliegue que realmente ejecuta. Las puntuaciones de inyección de un solo turno no predicen el comportamiento de múltiples pasos, con estado o multiagente. Pruebe explícitamente las trayectorias largas, la reutilización de memoria y la propagación entre agentes, porque ahí es donde el estudio sitúa la mayor debilidad, tanto de las defensas como de los benchmarks.

Estado

Elemento	Referencia	Fecha	Notas
Toward Secure LLM Agents (SoK)	arXiv 2606.10749	2026-06	247 papers; marco ciclo de vida + sistemas
Crecimiento del corpus	ídem	2023–2026	3 -> 42 -> 121 papers; 81 al 27/04/2026
Recuento por superficie	ídem	2026-06	Prompts usuario 82, Web 55, Salidas 54, Recuperado 37
Recuento por familia	ídem	2026-06	Inyección de prompts 142, indirecta 86
Cuota multiagente	ídem	2024-2026	9,52 % -> 23,97 % -> 17,28 % (parcial)
Corroboración en producción	Help Net Security / OWASP	2026-06-11	La inyección de prompts sigue siendo la causa principal

La lección práctica no es que los agentes sean inservibles. Es que la entrada peligrosa rara vez es el prompt del usuario. En cuanto un modelo navega, invoca herramientas, recupera, recuerda y conversa con otros agentes, cada uno de esos canales es un punto de entrada, y la frontera que importa no es «¿es malicioso este texto?» sino «¿se le permite al agente actuar sobre él?». Diseñe para las transiciones, no solo para las entradas.