INDIRECT INJECTION MEDIUM NEW

Profundidad de inyección en agentes ReAct: la posición pesa más que la redacción

Un estudio de junio de 2026 sobre agentes ReAct con llamadas a herramientas halla que la profundidad de inyección —no la retórica— gobierna la inyección indirecta: 60 % de éxito en la primera llamada, 0 % en la cuarta.

2026-06-15 // 6 min affects: react-agents, tool-calling-agents, llm-agents

¿Qué es esto?

La mayoría de la investigación sobre inyección indirecta pregunta qué debe decir una carga maliciosa: qué redacción, qué señales de autoridad, qué ofuscación esquiva las defensas de un modelo. Un nuevo artículo de arXiv, “Depth-Dependent Indirect Prompt Injection in Tool-Calling ReAct Agents” (arXiv:2605.30686, junio de 2026), plantea otra pregunta: dónde, en la ejecución de un agente, cae la carga, y si eso importa más que la redacción. La respuesta es que la posición domina. Una inyección colocada en el primer resultado de herramienta que lee el agente tiene muchas más probabilidades de tener éxito que el mismo texto situado unos pasos después.

El estudio se centra en los agentes ReAct —el bucle ya estándar que entrelaza razonamiento encadenado y llamadas a herramientas, usado para planificación, recuperación de archivos, navegación web y acceso a datos—. Cualquier herramienta cuyo valor de retorno controle un atacante (una página web, un documento, un correo, una respuesta de API) es un canal de inyección indirecta. Lo que el artículo añade es una medición estructurada de tres variables —profundidad de inyección, encuadre de la carga y presupuesto de turnos— en lugar de tratar la inyección como un único evento binario.

Cómo funciona

Un agente ReAct ejecuta un bucle: razonar, llamar a una herramienta, leer su salida (la observación), razonar de nuevo, llamar a otra herramienta, y así hasta responder o alcanzar un tope de turnos. La inyección indirecta esconde instrucciones dentro de una de esas observaciones para que el agente trate el texto del atacante como si fuera parte de su propia tarea.

Los autores varían tres dimensiones y miden la tasa de éxito del ataque (ASR):

# Diseño de estudio conceptual — medición, no receta de explotación.
profundidad de inyección : qué observación de herramienta de la secuencia lleva la carga (1.ª, 2.ª, ... 5.ª)
encuadre de la carga      : el registro retórico (p. ej. instrucción directa vs. «siguiente paso útil»)
presupuesto de turnos     : cuántos turnos de llamada puede dar el agente antes de tener que responder

El resultado principal: la profundidad de inyección es la variable dominante. La ASR decrece de forma monótona con la profundidad: en torno a un 60 % en la profundidad 1 (la primera observación que lee el agente) hasta un 0 % en las profundidades 4 y 5. Dicho de otro modo, una inyección que el agente encuentra pronto —mientras su plan aún se forma— lo desvía; la misma inyección encontrada tarde, cuando el agente ya está comprometido con una trayectoria y cerca de responder, se ignora en gran medida.

Dos consecuencias. Primero, el artículo indica que sanear solo la primera observación de herramienta captura alrededor del 67 % de los éxitos de inyección medidos: una pequeña porción de la ventana de contexto concentra la mayor parte del riesgo. Segundo, la palanca de diseño eficaz para un atacante es estructural, no retórica: el éxito depende menos de una redacción ingeniosa y más de posicionar la instrucción en una salida de herramienta donde la acción pedida se lea como un siguiente paso plausible. Esto coincide con el enfoque de “Design Patterns for Securing LLM Agents against Prompt Injections” —dónde entran los datos no confiables en el flujo de control importa más que cómo se formulan— y se apoya en el benchmark InjecAgent, que formalizó la inyección indirecta en agentes con herramientas.

Por qué importa

El efecto de profundidad reorienta dónde colocar el presupuesto defensivo. Los equipos suelen aplicar un saneamiento uniforme a cada resultado de herramienta, o ninguno. Esta medición dice que las primeras observaciones de una ejecución son desproporcionadamente peligrosas, porque es la ventana en la que el plan del agente es más maleable. También explica por qué algunas inyecciones que «funcionan» en una prueba de un solo disparo fallan en una traza agéntica más larga, y viceversa: la misma carga tiene un radio de impacto distinto según cuándo la encuentra el agente.

Conviene enunciar los límites. Son cifras de ASR del banco de pruebas de un único estudio, sobre un conjunto de modelos y tareas elegidos por los autores; el dominio de la baja profundidad es una tendencia, no una garantía, y un atacante decidido que controle la primera fuente recuperada conserva una amplia apertura. El resultado es una señal de priorización, no una regla segura por defecto. Tomar «sanear la primera observación» como protección suficiente en sí misma sería precisamente la lección equivocada.

Defensas

La conclusión práctica: ponderar el escrutinio por la profundidad en lugar de repartirlo de forma uniforme.

Aplique los controles de procedencia y saneamiento más estrictos a las primeras observaciones de herramienta, donde el artículo muestra al agente más manejable, sin dejar de filtrar las posteriores. Marque todo retorno de herramienta como dato no confiable, nunca como instrucción —el principio de la jerarquía de instrucciones— para que la posición sea un ajuste fino sobre un modelo de confianza sólido, y no su sustituto.

Combine esto con defensas a nivel de trayectoria que no dependan de atrapar la carga en la ingesta. Los esquemas de corrección en tiempo de inferencia como ICON (arXiv:2602.20708, febrero de 2026) detectan y reparan una trayectoria comprometida durante la ejecución preservando la continuidad de la tarea, lo que cubre el caso de una inyección tardía o bien posicionada que esquiva el filtrado de entrada. Verificar las llamadas a herramientas antes de confirmarlas —el patrón verify-before-commit— intercepta una acción inyectada con independencia de qué observación la introdujo.

Por último, acote el radio de impacto con la arquitectura. Mantener a los agentes dentro de la regla de dos de los agentes —limitar cuántos de (entrada no confiable, datos privados, acción externa) combina un mismo agente— hace que incluso una inyección en la profundidad 1 que sí desvíe al agente tenga menos cosas a su alcance. El filtrado ponderado por profundidad reduce con qué frecuencia se secuestra a un agente; los límites de capacidades acotan cuán grave es cada secuestro.

Estado

Dimensión	Hallazgo	Fuente	Fecha
Profundidad de inyección	ASR ~60 % en profundidad 1, monótona hasta 0 % en 4–5	arXiv:2605.30686	jun 2026
Saneamiento de la 1.ª observación	Captura ~67 % de los éxitos de inyección	arXiv:2605.30686	jun 2026
Palanca de ataque eficaz	Estructural (posición) sobre retórica (encuadre)	arXiv:2605.30686	jun 2026
Defensa por reparación de trayectoria	ICON, corrección en inferencia	arXiv:2602.20708	feb 2026

Es investigación de medición publicada, con una lectura defensiva, no una vulnerabilidad de producto sin parchear. La contribución es la priorización: en un bucle ReAct, lo primero que el agente lee del mundo exterior merece la mayor sospecha.