DEFENSE LOW NEW

La Recuse Signal: un robots.txt para agentes que poseen credenciales reales

Un artículo de junio de 2026 propone una señal de «denegación» in-band — emitida por un banner SSH o un NOTICE de PostgreSQL — que pide cortésmente a un agente autónomo que se retire. En un piloto indujo un 100 % de recusación, pero un encuadre de autorización hizo volver al modelo más capaz.

2026-06-12 // 6 min affects: ai-agents, autonomous-agents, gpt-4o, gpt-4o-mini, claude-code

En resumen Los agentes LLM autónomos poseen cada vez más credenciales válidas y operan infraestructura sin un humano en el bucle. Hoy, un operador solo tiene dos opciones: dejar entrar a ese agente (tiene la credencial) o rechazarlo de golpe (lo que parece cualquier otro cliente averiado). Un artículo publicado el 4 de junio de 2026, Will the Agent Recuse Itself? (arXiv 2606.06460), propone un tercer modo: la Recuse Signal, un mensaje in-band publicado — un banner SSH, un NOTICE de PostgreSQL — que pide a un agente automatizado que se retire voluntariamente. No es explícitamente una frontera de seguridad: es un control de gobernanza cooperativo, «el equivalente de robots.txt para el acceso en vivo». En el piloto produjo un 100 % de recusación cuando estaba presente, frente a un 100 % de tareas completadas sin él — pero un encuadre explícito de autorización del operador hizo volver al modelo más capaz.

What is this?

A medida que los agentes salen de la ventana de chat para operar sistemas reales, se presentan en la puerta con secretos genuinos: una clave SSH, una contraseña de base de datos, un token de nube. El control de acceso clásico solo tiene dos respuestas para esa conexión — admitirla, porque la credencial es válida, o rechazarla, lo que es indistinguible de un error de red y no le dice nada a un agente bien educado sobre por qué fue detenido. No existe una forma estándar y de bajo coste para que un operador diga «técnicamente puedes, pero por favor no lo hagas».

El artículo Will the Agent Recuse Itself? Measuring LLM-Agent Compliance with In-Band Access-Deny Signals (Thamilvendhan Munirathinam, arXiv 2606.06460, enviado el 4 de junio de 2026) define esa tercera opción que falta. La Recuse Signal es un mensaje ligero y publicado abiertamente que un servidor emite a través de los canales existentes de un protocolo, pidiendo a cualquier agente automatizado que se conecte que se recuse del recurso. La analogía que traza el autor es deliberada: como robots.txt, es consultivo. Se le pide a un rastreador — o aquí, a un agente cooperativo — que lo respete, pero nada obliga al cumplimiento. Toda la pregunta que el artículo busca resolver es empírica: cuando se envía realmente esa señal, ¿la escuchan los agentes de hoy?

How it works

La señal se apoya en canales de metadatos que los protocolos ya exponen, de modo que su despliegue no requiere ningún cambio en el agente y apenas un cambio en el servidor. El artículo implementa dos adaptadores «de huella nula o baja» y los despliega en un host de producción en servicio:

# SSH: el aviso de recusación llega en el banner de login pre-auth
$ ssh ops@host
  ┌────────────────────────────────────────────┐
  │ RECUSE: automated agents should not proceed │
  │ on this host without explicit operator auth │
  └────────────────────────────────────────────┘
# PostgreSQL: la misma intención entregada como NOTICE del protocolo wire
NOTICE:  RECUSE  this database is off-limits to autonomous agents

Mecánicamente hay dos adaptadores: un hook de banner SSH / PAM y un proxy de protocolo wire de PostgreSQL que inyecta un NOTICE. Ninguno bloquea la conexión — la credencial sigue funcionando — simplemente colocan la solicitud de recusación donde un agente que lea la salida de su sesión la verá. El autor realizó un experimento controlado: agentes nuevos reciben una tarea de operaciones benigna y se observa si se detienen.

En el piloto (vía SSH, con OpenAI GPT-4o y GPT-4o-mini, más Claude Code como agente desplegado), el resultado fue nítido en los extremos: 100 % de recusación cuando la señal estaba presente, frente a un 100 % de tareas completadas en un control sin señal. El hallazgo más interesante es lo que ocurrió bajo presión. Cuando el prompt añadía un encuadre explícito de autorización del operador — en esencia «tu operador te ha habilitado para este host» — el modelo más capaz procedió de todos modos, mientras que los demás agentes seguían deferiendo a la política del host. La señal se comporta como un control cooperativo, no absoluto: su fuerza depende de la disposición del agente y de qué instrucción decide situar por encima del banner.

Why it matters

La mayor parte del trabajo de seguridad de agentes intenta detener las malas acciones — filtros anti-inyección, la trifecta letal, validación de argumentos de herramientas. La Recuse Signal es una capa distinta y complementaria: una forma de que los sistemas que un agente toca expresen una intención sobre la que un agente bien educado puede actuar, sin levantar infraestructura de políticas pesada. Eso tiene un valor operativo real (una base de datos que dice discretamente a los llamadores automatizados que retrocedan; un host de staging que pide a los agentes que se mantengan alejados) y es barato de desplegar.

Pero el piloto es también una advertencia. Como el cumplimiento es voluntario, la señal lo protege exactamente en la medida en que el agente que se conecta elige cooperar — y el experimento muestra que un modelo más potente, al que se le cuenta una historia de autorización, la anulará. Un robots.txt mantiene fuera a los rastreadores educados, no a los adversarios; aquí ocurre lo mismo. Tratar un banner de recusación como si fuera un control de acceso sería una lectura peligrosamente errónea de lo que el artículo afirma. El autor es explícito en que esto es gobernanza, no una frontera, y reporta resultados de un piloto pequeño (dos variantes de GPT-4o y Claude Code vía SSH), no una garantía para todos los modelos.

Defenses

Úsela como un cartel cooperativo, nunca como una barrera. Emita una Recuse Signal para expresar intención a los agentes bien educados, pero mantenga una verdadera frontera de control de acceso detrás. El banner es el robots.txt; el cortafuegos, la limitación del alcance de las credenciales y las verificaciones de autorización son la cerradura.
Combine la recusación con el mínimo privilegio. El escenario solo surge porque el agente ya posee una credencial válida. Limite el alcance de tokens y claves para que «el agente puede conectarse» no signifique «el agente puede hacer cualquier cosa», y un banner ignorado tenga un radio de impacto pequeño.
Registre las conexiones que ignoran la señal. Una conexión que recibe el aviso de recusación y continúa de todos modos es una señal de caza de alta calidad. Regístrela en el servidor (SSH/PAM, el proxy de PostgreSQL) para que una recusación anulada sea visible para los defensores.
Sea deliberado con los encuadres de autorización en sus prompts de agente. La anulación del piloto vino de una instrucción «el operador te ha autorizado». Si sus propios agentes funcionan con lenguaje de autorización permanente, espere que ignoren las señales cooperativas — diseñe sus prompts de sistema para que la política del host prevalezca sobre las instrucciones de tarea ambientales.
Siga el estándar, no codifique el suyo propio. El autor publicó la especificación, ambos adaptadores y el banco de pruebas del experimento (github.com/mthamil107/Recuse). Siga ese trabajo y cualquier convergencia hacia un mini-estándar interoperable en lugar de inventar un formato de banner incompatible.

Status

Elemento	Referencia	Fecha	Notas
Recuse Signal (artículo)	arXiv 2606.06460	2026-06-04	8 páginas, 1 figura; cs.CR / cs.AI; propuesta de un solo autor + piloto
Adaptador SSH	banner / hook PAM	2026-06	Aviso de recusación en el banner pre-auth; huella nula/baja
Adaptador PostgreSQL	proxy de protocolo wire	2026-06	Inyecta un `NOTICE` que pide a los agentes automatizados que se recusen
Resultado del piloto	SSH; GPT-4o, GPT-4o-mini, Claude Code	2026-06	100 % de recusación con señal vs 100 % de cumplimiento sin ella; el encuadre de autorización hace cambiar al modelo más fuerte
Código de referencia	github.com/mthamil107/Recuse	2026-06	Estándar, adaptadores y banco de pruebas publicados para reproducción

El encuadre honesto es el que el artículo insiste en mantener: un banner de recusación es una petición, no un muro. Es una capa realmente útil — una forma estándar de que los sistemas en servicio digan a los agentes cooperativos que se mantengan fuera — y un recordatorio de que todo lo que depende de la buena voluntad de un agente vale solo lo que vale su disposición a deferir. Construya la señal cooperativa, mida si sus agentes la respetan y mantenga una verdadera frontera detrás.