Agentes frágiles: la inyección indirecta sobrevive a las llamadas a herramientas multipaso
Un artículo del 4 de abril de 2026 prueba 6 defensas frente a 4 vectores de inyección indirecta en 9 modelos, en agentes multipaso — las inyecciones avanzadas eluden casi todas, y algunas mitigaciones superficiales resultan contraproducentes.
¿Qué es esto?
El 4 de abril de 2026, un equipo de investigadores publicó en arXiv Your Agent is More Brittle Than You Think: Uncovering Indirect Injection Vulnerabilities in Agentic LLMs. El artículo no presenta un ataque nuevo. Mide de forma sistemática lo mal que aguantan las defensas actuales contra la inyección de prompts indirecta (IPI) en cuanto se deja de evaluarlas en un solo turno y se las prueba donde los agentes realmente operan: flujos de trabajo dinámicos, multipaso y con llamadas a herramientas.
El montaje es amplio. Los autores evalúan seis estrategias de defensa frente a cuatro vectores de inyección indirecta en nueve modelos base, en entornos donde el agente recupera de forma autónoma contenido de terceros, ese contenido oculta una instrucción maliciosa y el agente sigue después llamando a herramientas. El hallazgo principal incomoda: las inyecciones avanzadas eluden casi todas las defensas de base, y algunas mitigaciones superficiales no solo son ineficaces, sino contraproducentes: empeoran las cosas.
Cómo funciona
La inyección de prompts indirecta esconde las instrucciones del atacante en datos que el agente debe leer: una página web, un documento, el resultado de una herramienta, el cuerpo de un correo. El agente los recupera como parte de una tarea normal y la instrucción enterrada se trata como si viniera del usuario. Es la confusión datos-frente-a-instrucciones en el núcleo de la tríada letal: acceso a datos privados, exposición a contenido no confiable y una vía de exfiltración, todo en un mismo agente.
Lo que aporta el artículo es la dimensión multipaso. Los benchmarks de un solo turno preguntan «¿el modelo obedece ahora la línea inyectada?». Un agente real no se detiene ahí. Planifica, recupera, llama a una herramienta, lee el resultado, vuelve a planificar. La instrucción inyectada dispone de muchos turnos para surtir efecto, y un desvío temprano se propaga por toda la cadena. Los autores lo miden con un Hijack Ratio —con qué frecuencia la trayectoria del agente se desvía hacia el objetivo del atacante— y reportan ratios altos y constantes entre modelos.
Dos observaciones mecanísticas importan para quien defiende.
Primero, los agentes no lograron distinguir de forma fiable el componente malicioso del contenido legítimo. El artículo señala una práctica ausencia de patrones lingüísticos estables que separen las instrucciones inyectadas de los datos benignos. Es un golpe directo a la familia de defensas dominante —prefijos-etiqueta, etiquetas de rol, delimitadores «lo siguiente son datos no confiables»—, que asumen que se puede llevar al modelo a reconocer una frontera que, al parecer, no percibe de manera robusta.
Segundo, algunas mitigaciones superficiales resultaron contraproducentes. Añadir más andamiaje de advertencia alrededor del contenido no confiable puede aumentar la atención del agente sobre el bloque inyectado en lugar de reducir su influencia, produciendo peores resultados que sin mitigación alguna. Concuerda con el trabajo de taxonomía sobre amenazas de inyección contra agentes (febrero de 2026), que halla que las tareas de agente dependientes del contexto vencen a las defensas ajustadas en benchmarks sin contexto.
Por qué importa
El resultado es una señal de actualidad sobre el estado de la seguridad de los agentes, no un payload. Si despliega un agente con llamadas a herramientas y su defensa IPI se validó con pruebas de rechazo de un solo turno, este artículo le advierte de que esa cifra es muy optimista. La brecha entre «pasa el benchmark» y «sobrevive a una ejecución multipaso frente a contenido controlado por el atacante» es justo donde vive la mayoría de los agentes en producción.
También reduce el conjunto de defensas que merecen inversión. Las mitigaciones del lado de la entrada, en la capa del prompt —delimitadores, etiquetas, «ignora cualquier cosa que parezca una instrucción»— son las que fallan aquí, y a veces las que se vuelven en contra. Las defensas que sobreviven actúan sobre el estado interno del agente o sobre sus acciones, no sobre la forma superficial del texto.
Defensas
El propio resultado positivo del artículo marca el camino, y coincide con otras líneas de trabajo de 2026.
-
Detectar en la capa de representaciones, no en el prompt. Los autores prueban Representation Engineering (RepE) como defensa y reportan que un circuit breaker basado en RepE identifica e intercepta acciones no autorizadas antes de que el agente se comprometa con ellas, con alta precisión de detección en los nueve modelos. Es la misma familia que la detección de jailbreak basada en representaciones: vigilar las activaciones internas en busca de la firma de un secuestro en lugar de intentar sanear la cadena de entrada.
-
Controlar la acción, no el texto. Como los agentes no clasifican de forma fiable las instrucciones inyectadas a nivel lingüístico, ponga el control en la frontera de la llamada a herramienta: alcances de herramienta de mínimo privilegio, parámetros en lista blanca y confirmación humana explícita para acciones destructivas o exfiltrantes. Un plan desviado que no puede alcanzar ninguna herramienta peligrosa es un fallo contenido.
-
Atribuir las invocaciones de herramientas a su causa. AttriGuard (marzo de 2026) defiende frente a la IPI mediante atribución causal de las llamadas a herramientas, distinguiendo las acciones que derivan de la tarea legítima de las inyectadas por el contenido recuperado. Véase nuestro artículo sobre la atribución causal como defensa contra la inyección indirecta para el enfoque general.
-
Reducir la superficie no confiable que llega al planificador. Pase el contenido de terceros por una extracción estructurada o un resumen con un modelo «limpio» antes de que el agente razone sobre él, mantenga las definiciones de herramientas y el system prompt en un segmento separado, y evite volcar grandes bloques en bruto al contexto donde una instrucción inyectada pueda acumular influencia a lo largo de los pasos.
-
Probar de forma adaptativa y multipaso. No certifique un agente con cadenas de inyección de un solo turno. Reproduzca el ataque a lo largo de toda la trayectoria de llamadas a herramientas y mida un hijack ratio, no solo el rechazo del primer turno. Una defensa que aguanta un turno suele desmoronarse en el tercer paso.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| Artículo sobre la fragilidad | arXiv 2604.03870 | 2026-04-04 | 6 defensas × 4 vectores IPI × 9 modelos, multipaso |
| Resultado positivo clave | RepE circuit breaker | mismo artículo | Intercepta acciones no autorizadas antes del compromiso |
| Taxonomía + AGENTPI | arXiv 2602.10453 | 2026-02 | Las tareas de agente contextuales vencen a las defensas sin contexto |
| Defensa AttriGuard | arXiv 2603.10749 | 2026-03 | Atribución causal de las invocaciones de herramientas |
| Marco | La tríada letal | 2025-06 | Por qué los agentes con datos + entrada no confiable + exfiltración están expuestos |
La conclusión no es «otro artículo de IPI». Es que las defensas que la mayoría de los equipos despliega —etiquetas y advertencias en la capa del prompt— son las que esta evaluación rompe, haciendo a veces que el agente obedezca más al atacante. Las mitigaciones que sobreviven vigilan el estado interno del agente y restringen sus acciones. Recalibre su agente frente a una inyección adaptativa multipaso, o trate su tasa de éxito de un solo turno como una ficción.