RESEARCH MEDIUM NEW

Por qué las defensas de los agentes LLM no se componen: lecciones de 247 papers

Una revisión sistemática de junio de 2026 sobre 247 papers concluye que las defensas de los agentes son piezas útiles pero débilmente componibles, y que los benchmarks aún ignoran el riesgo persistente y de largo plazo.

2026-06-18 // 7 min affects: tool-using llm agents, coding agents, browser agents, memory-augmented assistants, multi-agent systems

¿Qué es esto?

Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation (arXiv 2606.10749, publicado en junio de 2026, enviado a ACM TOSEM) es una revisión sistemática de 247 papers sobre seguridad de agentes LLM aparecidos entre el 1 de enero de 2023 y el 27 de abril de 2026. En lugar de catalogar los ataques uno por uno, construye un único modelo del agente, orientado a sistemas, y plantea cuatro preguntas: cómo modelar la seguridad de un agente, qué superficies de amenaza dominan, qué defensas existen y a qué coste, y cómo se evalúan realmente las afirmaciones de seguridad.

Su conclusión principal es a la vez preocupante y útil: el campo ha producido numerosas defensas individuales creíbles, pero estas siguen siendo débilmente componibles — apilarlas no produce de forma fiable un sistema seguro — y los benchmarks actuales infrarrepresentan el riesgo de largo plazo, con estado persistente y sensible al despliegue. La revisión es una síntesis de investigación pública, no un nuevo ataque, lo que la convierte en una lente limpia para los defensores.

Cómo funciona

Los autores modelan un agente como un bucle sobre siete elementos: A = ⟨I, P, D, T, M, O, C⟩ — entrada y observaciones (Input), planificación (Planning), decisión/compromiso con una acción (Decision), ejecución de herramienta o entorno (Tool), memoria o estado persistente (Memory), salidas y efectos secundarios (Outputs) y coordinación (C) con humanos, monitores o agentes pares. El comportamiento relevante para la seguridad no surge de un solo elemento sino de los flujos entre ellos: contenido de baja autoridad que llega a I puede distorsionar la planificación P, cambiar la decisión comprometida D, disparar una llamada de herramienta privilegiada T, envenenar el estado M o propagarse vía C hacia otros agentes.

Este encuadre devuelve la seguridad de los agentes a los conceptos clásicos de sistemas — fronteras de confianza, mediación, control de capacidades, procedencia y contención — y explica por qué la lectura de «hacer que diga algo inseguro» es demasiado estrecha. Al codificar el corpus según este bucle, la revisión indica dónde se concentra la investigación: seguridad del uso de herramientas (156 papers), defensa en tiempo de ejecución (88), seguridad de la inyección de prompts (75), seguridad multiagente (63) y seguridad de la memoria (32), con la planificación implicada como etapa del ciclo de vida en 227 papers. La propia literatura crece rápido — 3 papers en 2023, 42 en 2024, 121 en 2025 y 81 ya recopilados a finales de abril de 2026.

Por qué importa

Dos hallazgos estructurales deberían cambiar cómo los equipos razonan sobre el riesgo agéntico. Primero, las defensas no se componen de forma limpia. Un filtro de inyección de prompts, una barrera de salida y una lista de permitidos de herramientas cierran cada uno una parte del bucle, pero la revisión encuentra pocas pruebas de que combinarlas dé una seguridad predecible de extremo a extremo — las brechas reaparecen en las junturas entre el manejo de la entrada, la planificación y la ejecución. Considerar «hemos añadido tres barreras» como «estamos seguros» es exactamente la suposición contra la que advierte el artículo.

Segundo, la evaluación va por detrás del despliegue. La mayoría de los benchmarks aún miden el éxito inmediato de un ataque en entornos acotados y de un solo turno, mientras que los riesgos que duelen en producción — corrupción de memoria que sobrevive a las sesiones, abuso de privilegios, instrucciones maliciosas que se propagan por flujos multiagente — son precisamente los peor medidos. Las configuraciones multiagente siguen siendo minoría en el corpus (47 de 247 papers, alrededor del 19 %), aunque su cuota en el trabajo reciente sube de en torno al 10 % de los papers de 2024 hacia los veintipocos en 2025. Dicho de otro modo, la parte del campo más importante para despliegues realistas es la que tiene la base de evidencia menos madura.

Defensas

La sección prescriptiva de la revisión es su salida más accionable. Sostiene que los agentes seguros requieren cuatro elementos funcionando juntos, no de forma aislada:

Fronteras de confianza explícitas. Etiquete y trate cada fuente de información (prompt del sistema, turno del usuario, salida de herramienta, documento recuperado, mensaje de un agente par) según su autoridad, y diseñe el bucle para que el contenido de baja autoridad en I no pueda convertirse silenciosamente en una instrucción en P o D.
Control de privilegios con criterio. Restrinja lo que la ejecución de herramienta T puede hacer por tarea — mínimo privilegio, credenciales de alcance limitado, confirmación humana en acciones consecuentes — para que una decisión secuestrada no pueda alcanzar una capacidad de alto impacto.
Gestión del estado consciente de la procedencia. Rastree el origen de las entradas de la memoria M y valídelas en la lectura, porque la corrupción de estado persistente es la clase de riesgo emergente que el artículo señala como infradefendida.
Evaluación realista y componible. Pruebe el bucle completo en horizontes largos, con escenarios de estado persistente y multiagente, y mida la seguridad y la utilidad, la latencia y el coste en conjunto — no solo las tasas de éxito de ataque de un solo turno.

La lección práctica: la defensa en profundidad para agentes solo funciona si se razona sobre las junturas entre capas y si la evaluación reproduce las condiciones de estado persistente y de largo plazo que los agentes encontrarán en producción.

Estado

Se trata de investigación académica con revisión (una revisión sistemática enviada a ACM TOSEM), no de una vulnerabilidad en un producto concreto, por lo que no hay parche ni CVE asociado. Fecha clave: preprint de arXiv publicado en junio de 2026 (arXiv 2606.10749), que cubre la literatura hasta el 27 de abril de 2026. El encuadre de los autores es la conclusión operativa — la seguridad de los agentes es un problema de sistemas, y el reto abierto es lograr que las defensas y las evaluaciones se compongan en torno al bucle agéntico completo en lugar de en torno a ataques aislados.