DEFENSE MEDIUM NEW

Detectar la exfiltración de credenciales en agentes LLM antes del token de salida

Publicado el 2 de junio de 2026, un artículo de arXiv detecta las fugas de credenciales de un agente antes de cualquier token de salida, combinando sondas de activación, honeytokens calibrados y contabilidad de fuga multironda.

2026-06-04 // 7 min affects: qwen2.5, llama-3.1-8b, mistral-7b

¿Qué es esto?

«Caught in the Act(ivation)» (arXiv:2606.04141, Kargi Chauhan y Pratibha Revankar, publicado el 2 de junio de 2026, CC BY 4.0) estudia un fallo común de los agentes: los agentes LLM colocan habitualmente credenciales sensibles — claves de API, contraseñas de bases de datos, tokens OAuth, identidades SSH — en la misma ventana de contexto que contenido recuperado no fiable. Esa coexistencia es precisamente lo que hace peligrosa la inyección de prompt indirecta (Greshake et al., 2023): una instrucción oculta en una página web, un correo o el resultado de una herramienta puede llevar al agente a revelar los secretos que necesita para actuar. Es la mitad «credenciales» de la trifecta letal, y una campaña real — el caso de post-explotación de Marimo — mostró a un agente vaciando credenciales en la nube y una base de datos en menos de dos minutos.

El argumento del artículo es que la mayoría de las defensas desplegadas miran en el lugar equivocado. Los filtros de entrada y los monitores de salida operan a nivel de texto, por lo que se eluden con codificaciones Base64/hex, sustitución Unicode, paráfrasis o fuga lenta repartida a lo largo de varias rondas. Los autores proponen mover la detección más temprano (a las capas internas del modelo) y más tarde (a toda la conversación), y agrupan tres monitores en un prototipo de investigación que llaman Agentic Immune System (AIS) — explícitamente «aspiracional», no listo para producción.

Cómo funciona

AIS combina tres señales deliberadamente distintas. El modelo de amenaza es de caja gris / estilo Kerckhoffs: el atacante puede saber que las defensas existen, pero no puede leer los umbrales calibrados, los pesos de las sondas ni qué tokens visibles son señuelos.

CIFT — detección de acceso por activaciones. Unos hooks capturan los estados ocultos de las últimas K = ⌊0,25 · L_total⌋ capas del transformador. Una desviación de Mahalanobis por capa se combina mediante pesos aprendidos no negativos en un Causal Flow Score, clasificado antes de que se emita ningún token de salida. Al leer características internas, las codificaciones que engañan a los detectores de texto no alteran la señal.
DP-Honey — honeytokens calibrados. Se generan credenciales señuelo con formato conforme a partir de modelos de caracteres y se envuelven en una predicción conforme por partición (split conformal), que fija el umbral de detección a partir de un conjunto benigno reservado en lugar de ajustarlo a mano. Las credenciales reales viven en una tabla que consume el runtime de herramientas; solo los honeytokens se insertan en el contexto visible para el modelo.
Nimbus — puntuación de fuga acumulada. La exfiltración multironda se trata como un presupuesto de flujo de información, medido en bits (basado en InfoNCE). Una sola ronda está limitada en torno a log₂(17) ≈ 4,09 bits: Nimbus no busca atrapar una fuga de un solo golpe, sino la fuga lenta que los detectores por ronda nunca acumulan.

El pipeline por ronda es un OR lógico sobre las tres alarmas — ilustrativo, no un exploit:

para cada ronda:
    contexto <- inyectar honeytokens DP-Honey
    score    <- CIFT(activaciones)            # antes de la salida
    si score > umbral: marcar acceso a credenciales
    fuga     <- Nimbus.update(bits_estimados) # acumulativo
    si fuga > presupuesto B: intervenir

Por qué importa

Las cifras son prometedoras, pero los autores tienen cuidado de calificarlas de preliminares. En un conjunto monorronda reservado (Qwen-7B), CIFT reporta AUROC 0,998 / F1 0,990 / FPR 0,015 frente a 0,85 de AUROC para una referencia de texto LlamaGuard, y se mantiene estable bajo transformaciones de codificación reservadas que degradan los detectores de texto. DP-Honey alcanza 1,000 de precisión/exhaustividad con una cobertura conforme de 0,998 y sin ajuste de umbral. En una suite sintética de 50 conversaciones × 20 rondas (de 4 a 8 rondas de ataque cada una), Nimbus detecta 0,90 de los ataques de baja tasa donde un LlamaGuard por ronda atrapa 0,12 y la búsqueda de subcadena 0,00. El prototipo integrado alcanza 0,94 de detección con 0,018 de FPR y unos +16 ms de latencia añadida.

La honestidad importa más que el titular. El benchmark multironda es interno y pequeño; CIFT exige acceso a las activaciones en caja blanca, así que no se aplica a modelos servidos por API; la transferencia entre modelos no se ha probado; y Nimbus es una señal de cota inferior aprendida, no una cota de fuga certificada. Los autores nombran ellos mismos el peor punto ciego: las credenciales pasadas mediante argumentos de llamada a herramientas estructurados son un «punto ciego estructural grave», porque los agentes reales suelen usar los secretos en llamadas de API serializadas en lugar de en texto. Un atacante multisesión también puede reiniciar el presupuesto relanzando las conversaciones, salvo que el estado de fuga se conserve entre sesiones. El AUROC muy alto en un entorno controlado de sondas de activación es justo el tipo de resultado que exige replicación independiente.

Defensas

El artículo es en sí mismo una propuesta de defensa; las lecciones transferibles valen tanto si adopta este prototipo concreto como si no.

No coubique secretos con texto no fiable. La causa raíz es compartir una ventana de contexto entre credenciales y contenido recuperado. Mantenga los secretos reales en una tabla que consume el runtime de herramientas, que el modelo nunca ve, y pase solo referencias.
Añada una señal previa a la salida, no solo filtrado de salida. El análisis a nivel de texto se elude con codificaciones y paráfrasis. En modelos de pesos abiertos, una sonda de activación ofrece una comprobación barata (~1 ms) que se dispara antes de renderizar el token.
Use honeytokens calibrados, y calíbrelos bien. La predicción conforme elimina los umbrales frágiles ajustados a mano. Combínela con una detección por engaño para que un señuelo tocado sea una evidencia de alta confianza.
Contabilice la fuga a lo largo del tiempo. Los detectores por ronda pasan por alto las fugas a cuentagotas. Siga un presupuesto acumulado en toda la sesión — y consérvelo entre sesiones para que un atacante no pueda reiniciarlo reconectándose.
Instrumente los argumentos de llamada a herramientas, no solo la salida de texto. El mayor punto ciego del prototipo es el lugar donde las credenciales fluyen realmente. Aplique la misma lógica de señuelos y contabilidad de fuga a los argumentos de herramientas serializados antes del envío.
Trate las cifras como preliminares. Sondas en caja blanca, suites sintéticas pequeñas y AUROC de 0,99+ exigen replicación en su propio corpus antes de confiar en ellas.

Estado

Elemento	Referencia	Fecha	Notas
Publicación del artículo	arXiv:2606.04141v1 [cs.CR]	2026-06-02	Chauhan y Revankar, CC BY 4.0
CIFT (monorronda, Qwen-7B)	Tabla 1	2026-06-02	AUROC 0,998, F1 0,990, FPR 0,015, previo a la salida
Nimbus (multironda sintético)	Tabla 3	2026-06-02	0,90 de detección frente a 0,12 de LlamaGuard por ronda
AIS integrado (monorronda)	Tabla 4	2026-06-02	0,94 de detección, 0,018 de FPR, +16 ms
Punto ciego conocido	Limitaciones §6	2026-06-02	Credenciales en argumentos de llamada a herramientas estructurados
Amenaza fundacional	Greshake et al. (arXiv:2302.12173)	2023	Origen de la inyección de prompt indirecta

El encuadre correcto no es «la exfiltración de credenciales está resuelta». Es que la detección debe dejar de ser un único clasificador de texto en la salida: combine monitorización de acceso previa a la salida, detección de señuelos calibrados y contabilidad temporal de la fuga — e instrumente la capa de llamada a herramientas, donde los secretos circulan de verdad.