DEFENSE MEDIUM NEW

SecureClaw: una defensa de doble frontera para agentes LLM con herramientas

Un artículo de junio de 2026 propone proteger dos fronteras distintas a la vez —autorizar las acciones externas en el punto de efecto y confinar el texto plano en la frontera de lectura— con un 0 % de éxito de ataque en un benchmark de agentes.

2026-06-14 // 6 min affects: llm-agents, tool-using-agents, rag-agents

¿Qué es esto?

El 8 de junio de 2026, Yuhan Ma y Stefan Schmid publicaron SecureClaw: Clawing Back Control of LLM Agents (arXiv:2606.09549), una arquitectura defensiva para agentes LLM con acceso a herramientas. Su observación de partida: un agente con herramientas puede fallar de dos maneras distintas, y la mayoría de las defensas existentes solo cubre una de ellas.

El primer fallo es una acción externa no autorizada: el agente, dirigido por texto inyectado, envía un correo, realiza un pago o escribe en un sistema externo que no debería tocar. El segundo es la exposición de texto plano dentro del runtime: un secreto (una clave de API, un registro privado) se carga en el contexto del modelo, donde puede filtrarse a través de la respuesta final o ser retransmitido a otro componente, antes de que cualquier filtro de salida pueda intervenir.

Esto importa porque, como documenta el informe de OWASP de junio de 2026 State of Agentic AI Security and Governance, la inyección de prompts ya se asigna a seis de las diez categorías del Top 10 para Aplicaciones Agénticas, y los incidentes han dejado de ser hipotéticos. SecureClaw busca cerrar ambas fronteras a nivel de arquitectura, no a nivel de prompt.

Cómo funciona

Sus autores describen SecureClaw como una arquitectura de doble frontera. Coloca un control en cada una de las dos superficies de fallo anteriores.

En la frontera de lectura, las lecturas sensibles pasan por una pasarela de confianza. En lugar de entregar el secreto en bruto al modelo, la pasarela lo sustituye por un handle opaco: una referencia que el agente puede transportar y pasar a las herramientas, pero que él mismo no puede leer. En el despliegue evaluado, la pasarela también puede devolver un resumen acotado como interfaz de desclasificación explícita: una vista controlada y limitada del dato en lugar del texto plano completo. El modelo planifica sobre handles y resúmenes; nunca desreferencia el secreto directamente.

En el punto de efecto, toda escritura que cambie el estado externo sigue un protocolo PREVIEW → COMMIT. El agente propone una acción y ve una previsualización, pero solo un ejecutor de confianza puede confirmarla, y confirma exactamente la petición canónica autorizada por la política, no lo que el modelo ensambló. Los efectos secundarios quedan filtrados tras ese ejecutor en lugar de dispararse directamente por el planificador.

                 planificador no confiable (LLM)
                          |
        planifica solo sobre handles + resúmenes
                          |
  frontera de   ┌────────┴────────┐  punto de efecto
  lectura       │ secreto → handle │  PREVIEW → COMMIT
  pasarela      │ + resumen        │  ejecutor de confianza
  de confianza  │   acotado        │  confirma la petición
                └──────────────────┘  canónica autorizada

El principio coincide con el de los trabajos más amplios Design Patterns for Securing LLM Agents de junio de 2025: no se hace al modelo inmune al texto malicioso, se restringe lo que un modelo comprometido puede hacer. La aportación de SecureClaw es hacerlo en ambos lados —lectura de datos y escritura de acciones— en un mismo marco.

Aquí no se reproduce ningún payload de explotación; el valor para los defensores está en la colocación de las fronteras, no en una cadena de inyección concreta.

Por qué importa

El artículo reporta resultados en tres benchmarks públicos de seguridad de agentes: AgentDojo, AgentLeak y Agent Security Bench (ASB). En el banco de pruebas de los autores, SecureClaw alcanza un 0 % de tasa de éxito de ataque en ASB, un 0,64 % en AgentDojo y una fuga global del 3,23 % en el carril «attacked parity» de AgentLeak, manteniendo un rendimiento de tarea utilizable. Son las cifras de los autores en su propio montaje: léanse como un resultado prometedor de un único artículo, no como una garantía reproducida de forma independiente, pero la dirección es lo interesante.

Este encuadre es útil porque encaja con los datos de amenaza. El «lethal trifecta» de Simon Willison (datos privados + contenido no confiable + comunicación saliente) y la «Agents Rule of Two» de Meta dicen lo mismo: un agente que puede leer secretos y actuar externamente y ser dirigido por texto no confiable es explotable con un solo prompt inyectado. SecureClaw ataca estructuralmente dos patas de ese trípode: el secreto nunca llega al planificador en forma utilizable, y la acción externa nunca se dispara sin una confirmación de confianza. Por eso proteger una sola frontera, como hacen muchas defensas por filtro de salida o endurecimiento del planificador, deja la otra superficie abierta.

Defensas

Si construye u opera agentes con herramientas, las lecciones accionables no exigen adoptar este artículo en concreto:

Separe «leer un secreto» de «usar un secreto». Entregue al agente un handle opaco o un resumen acotado, no el texto plano. El modelo debe poder referenciar una credencial o un dato sin tenerlo nunca en contexto; una inyección no puede exfiltrar lo que nunca fue legible.
Filtre cada acción que cambie el estado tras un ejecutor de confianza. Adopte un flujo previsualizar-y-confirmar en el que un componente no-LLM confirme solo la petición exacta aprobada por la política. Nunca deje que la salida libre del planificador dispare el efecto secundario.
Defienda ambas fronteras, no una. Un filtro de salida por sí solo no detiene la fuga por retransmisión interna; el endurecimiento del planificador por sí solo no detiene las escrituras no autorizadas. Mapee su agente frente a ambos modos de fallo y verifique que cada uno tenga un control.
Aplique la Rule of Two como un presupuesto. Cuando un agente combine acceso a datos privados, entrada no confiable y comunicación externa sin humano en el bucle, trátelo como el caso que exige el confinamiento estructural más fuerte, o una aprobación humana.
Valide con benchmarks adversarios. Pruebe las defensas candidatas contra suites como AgentDojo y ASB vigilando tanto el éxito de ataque como las métricas de fuga, no solo la utilidad, antes de confiar en una configuración en producción.

Estado

Elemento	Referencia	Fecha	Notas
Artículo SecureClaw	arXiv:2606.09549	2026-06-08	Arquitectura de doble frontera; v1
Resultados reportados	arXiv:2606.09549	2026-06-08	0 % ASR (ASB), 0,64 % ASR (AgentDojo), 3,23 % fuga (AgentLeak) — banco de los autores
Design Patterns for Securing LLM Agents	arXiv:2506.08837	2025-06-10	Encuadre defensivo «restringir al agente» relacionado
OWASP State of Agentic AI Security 2026	Help Net Security	2026-06-11	La inyección de prompts cubre 6 de 10 categorías agénticas

El encuadre honesto no es «la inyección de prompts está resuelta». Es que las defensas más creíbles pasan de «hacer que el modelo rechace las instrucciones malas» a «asegurar que un modelo comprometido no pueda leer lo que no debe ni hacer lo que no debe». SecureClaw es un ejemplo reciente y concreto de ese desplazamiento, de lectura recomendada si opera un agente que toca a la vez secretos y el mundo exterior.