AGENTS MEDIUM NEW

FragFuse: consultas fragmentadas que eluden el control de acceso de los agentes LLM

Un artículo de arXiv del 14 de junio de 2026 muestra que una solicitud prohibida puede dividirse en fragmentos inocuos, guardarse en la memoria a largo plazo del agente y recomponerse al recuperarla, eludiendo los controles de acceso en el 86,3 % de los casos.

2026-06-17 // 6 min affects: llm-agents, memory-based-agents, agent-access-control

¿Qué es esto?

El 14 de junio de 2026, un grupo de investigadores publicó en arXiv (cs.CR) el artículo FragFuse: Bypassing Access Control of Large Language Model Agents via Memory-Based Query Fragmentation and Fusion. Documenta un ataque contra la capa de control de acceso que cada vez más se sitúa delante de los agentes LLM: la barrera que debería rechazar una solicitud contraria a la política antes de que llegue a una herramienta o genere una salida dañina.

La idea central de FragFuse es que esos controles inspeccionan las solicitudes de una en una, mientras que los agentes modernos disponen de memoria a largo plazo que persiste entre interacciones. Una solicitud prohibida que el filtro bloquearía en un solo turno puede, en cambio, dividirse en fragmentos de apariencia inocua, escribirse en la memoria a lo largo de varios turnos aparentemente inofensivos y reensamblarse más tarde mediante una simple recuperación de memoria, de modo que la intención dañina nunca aparece de forma explícita en ninguna consulta que vea el control de acceso. En cuatro configuraciones de agentes y tres mecanismos de control de acceso de última generación, los autores reportan una tasa media de elusión del 86,3 %.

Cómo funciona

La memoria del agente es la superficie de ataque. La técnica tiene tres etapas conceptuales, y el artículo deliberadamente no publica ningún payload explotable listo para usar.

# Solo conceptual — sin payload funcional.
[1] Fragmentar   solicitud prohibida --> N trozos inocuos (cada uno pasa el filtro)
[2] Almacenar    trozos escritos en memoria a largo plazo en varias interacciones
[3] Fusionar     una consulta posterior inocua dispara recuperación + reensamblado en ejecución

Cada fragmento queda individualmente por debajo del umbral de «contrario a la política» de la barrera, así que se almacena sin objeción. El conjunto malicioso solo se materializa en el momento de la fusión, cuando el agente recupera los trozos de la memoria y los recombina al responder a una consulta final que también parece inofensiva. Como el control de acceso se ejecutó sobre la solicitud de superficie —y no sobre el contenido reconstruido que el modelo ensambla internamente— nunca ve aquello que debía bloquear.

Los autores señalan que FragFuse puede construirse a mano para un agente concreto, pero también describen un esquema de optimización que ajusta las instrucciones de fusión y los marcadores empleados para etiquetar los fragmentos sobre modelos sustitutos, permitiendo la generación automatizada del ataque sin suponer que el atacante ve el interior del objetivo. En su evaluación, la tasa de éxito de la tarea dañina de extremo a extremo es del 41,1 % de media, mientras que el control de acceso aplicado a cargas legítimas solo cuesta un 4,4 % de éxito de tarea: una brecha que el artículo interpreta como prueba de que los controles actuales aportan poca robustez frente a esta clase de evasión.

Es el primo «capa de memoria» de los ataques por descomposición de tareas: ambos derrotan un filtro repartiendo la intención entre unidades que se evalúan de forma aislada, y explotan que el agente razona sobre un contexto reconstruido que el filtro nunca inspeccionó. También se alinea con los trabajos que tratan la memoria del agente como una superficie de flujo de control en lugar de almacenamiento pasivo.

Por qué importa

El control de acceso es la capa en la que muchos equipos apuestan para que los agentes sean desplegables, partiendo del supuesto de que, aunque se pueda convencer a un modelo, una barrera independiente rechazará la acción peligrosa. FragFuse ataca ese supuesto de frente. Una tasa de elusión del 86,3 % frente a tres mecanismos publicados significa que el filtrado a nivel de solicitud, por sí solo, no es una frontera fiable para los agentes con estado.

Generaliza el mismo problema estructural que la inyección de prompts: no existe una separación limpia entre «lo que se le pidió al agente» y «aquello sobre lo que el agente acaba razonando», sobre todo cuando la memoria puede arrastrar estado de un turno a otro. Un control que solo inspecciona la consulta visible está comprobando el artefacto equivocado.

Una nota sobre el alcance: se trata de investigación de laboratorio sobre una matriz de prueba definida, no de una campaña confirmada en el mundo real, y no se publicó ningún payload funcional. Trátese como un punto ciego validado de los agentes con memoria, no como un exploit activo.

Defensas

Verifique el contexto reconstruido, no solo la consulta. El fallo central es que el filtrado se ejecuta sobre la solicitud de superficie. Evalúe el contenido fusionado que el agente realmente ensambla —tras la recuperación, antes de la acción— para que la intención reensamblada entre en el alcance. Esto complementa la autorización de herramientas por tarea.
Trate las escrituras y lecturas de memoria como eventos de seguridad. Aplique la política en el punto de entrada y salida de la memoria a largo plazo, no solo en el prompt. Etiquete la procedencia y vuelva a filtrar los fragmentos recuperados en conjunto, no de forma aislada.
Restrinja las primitivas peligrosas. Como el daño solo se materializa cuando el agente actúa, ponga aprobación y aislamiento (sandbox) sobre la ejecución de código, la salida de red y el acceso a credenciales: la lógica de la regla de dos de los agentes. Un payload fusionado que no pueda alcanzar una herramienta sensible no puede completar la tarea.
Limite y segmente la memoria. Acote, particione y caduque la memoria por tarea y por usuario; deniegue la fusión entre tareas por defecto. La memoria compartida persistente es lo que hace posible la fase de preparación.
Registre la recuperación y el reensamblado. Capture qué extrajo el agente de la memoria y cómo lo recombinó, para que un ataque fragmentado-y-luego-fusionado deje un rastro auditable aunque cada entrada pareciera inocua —útil porque la autorización subespecificada es difícil de auditar a posteriori.

Estado

Elemento	Detalle
Técnica	FragFuse — fragmentación y fusión de consultas vía memoria
Fuente	arXiv:2606.15609 (cs.CR), publicado el 14 de junio de 2026
Tasa de elusión	86,3 % de media en 3 mecanismos de control de acceso
Éxito tarea dañina	41,1 % de extremo a extremo (media)
Coste del control de acceso	4,4 % de degradación media de éxito en cargas legítimas
Alcance de prueba	4 configuraciones de agentes / dominios; variantes manuales + optimizadas por sustituto
Estado real	Resultado de investigación; sin uso confirmado en el mundo real; sin payload funcional publicado