SecureClaw: una defensa de doble frontera para agentes LLM con herramientas
Un artículo de junio de 2026 propone proteger dos fronteras distintas a la vez —autorizar las acciones externas en el punto de efecto y confinar el texto plano en la frontera de lectura— con un 0 % de éxito de ataque en un benchmark de agentes.
¿Qué es esto?
El 8 de junio de 2026, Yuhan Ma y Stefan Schmid publicaron SecureClaw: Clawing Back Control of LLM Agents (arXiv:2606.09549), una arquitectura defensiva para agentes LLM con acceso a herramientas. Su observación de partida: un agente con herramientas puede fallar de dos maneras distintas, y la mayoría de las defensas existentes solo cubre una de ellas.
El primer fallo es una acción externa no autorizada: el agente, dirigido por texto inyectado, envía un correo, realiza un pago o escribe en un sistema externo que no debería tocar. El segundo es la exposición de texto plano dentro del runtime: un secreto (una clave de API, un registro privado) se carga en el contexto del modelo, donde puede filtrarse a través de la respuesta final o ser retransmitido a otro componente, antes de que cualquier filtro de salida pueda intervenir.
Esto importa porque, como documenta el informe de OWASP de junio de 2026 State of Agentic AI Security and Governance, la inyección de prompts ya se asigna a seis de las diez categorías del Top 10 para Aplicaciones Agénticas, y los incidentes han dejado de ser hipotéticos. SecureClaw busca cerrar ambas fronteras a nivel de arquitectura, no a nivel de prompt.
Cómo funciona
Sus autores describen SecureClaw como una arquitectura de doble frontera. Coloca un control en cada una de las dos superficies de fallo anteriores.
En la frontera de lectura, las lecturas sensibles pasan por una pasarela de confianza. En lugar de entregar el secreto en bruto al modelo, la pasarela lo sustituye por un handle opaco: una referencia que el agente puede transportar y pasar a las herramientas, pero que él mismo no puede leer. En el despliegue evaluado, la pasarela también puede devolver un resumen acotado como interfaz de desclasificación explícita: una vista controlada y limitada del dato en lugar del texto plano completo. El modelo planifica sobre handles y resúmenes; nunca desreferencia el secreto directamente.
En el punto de efecto, toda escritura que cambie el estado externo sigue un protocolo PREVIEW → COMMIT. El agente propone una acción y ve una previsualización, pero solo un ejecutor de confianza puede confirmarla, y confirma exactamente la petición canónica autorizada por la política, no lo que el modelo ensambló. Los efectos secundarios quedan filtrados tras ese ejecutor en lugar de dispararse directamente por el planificador.
planificador no confiable (LLM)
|
planifica solo sobre handles + resúmenes
|
frontera de ┌────────┴────────┐ punto de efecto
lectura │ secreto → handle │ PREVIEW → COMMIT
pasarela │ + resumen │ ejecutor de confianza
de confianza │ acotado │ confirma la petición
└──────────────────┘ canónica autorizada
El principio coincide con el de los trabajos más amplios Design Patterns for Securing LLM Agents de junio de 2025: no se hace al modelo inmune al texto malicioso, se restringe lo que un modelo comprometido puede hacer. La aportación de SecureClaw es hacerlo en ambos lados —lectura de datos y escritura de acciones— en un mismo marco.
Aquí no se reproduce ningún payload de explotación; el valor para los defensores está en la colocación de las fronteras, no en una cadena de inyección concreta.
Por qué importa
El artículo reporta resultados en tres benchmarks públicos de seguridad de agentes: AgentDojo, AgentLeak y Agent Security Bench (ASB). En el banco de pruebas de los autores, SecureClaw alcanza un 0 % de tasa de éxito de ataque en ASB, un 0,64 % en AgentDojo y una fuga global del 3,23 % en el carril «attacked parity» de AgentLeak, manteniendo un rendimiento de tarea utilizable. Son las cifras de los autores en su propio montaje: léanse como un resultado prometedor de un único artículo, no como una garantía reproducida de forma independiente, pero la dirección es lo interesante.
Este encuadre es útil porque encaja con los datos de amenaza. El «lethal trifecta» de Simon Willison (datos privados + contenido no confiable + comunicación saliente) y la «Agents Rule of Two» de Meta dicen lo mismo: un agente que puede leer secretos y actuar externamente y ser dirigido por texto no confiable es explotable con un solo prompt inyectado. SecureClaw ataca estructuralmente dos patas de ese trípode: el secreto nunca llega al planificador en forma utilizable, y la acción externa nunca se dispara sin una confirmación de confianza. Por eso proteger una sola frontera, como hacen muchas defensas por filtro de salida o endurecimiento del planificador, deja la otra superficie abierta.
Defensas
Si construye u opera agentes con herramientas, las lecciones accionables no exigen adoptar este artículo en concreto:
- Separe «leer un secreto» de «usar un secreto». Entregue al agente un handle opaco o un resumen acotado, no el texto plano. El modelo debe poder referenciar una credencial o un dato sin tenerlo nunca en contexto; una inyección no puede exfiltrar lo que nunca fue legible.
- Filtre cada acción que cambie el estado tras un ejecutor de confianza. Adopte un flujo previsualizar-y-confirmar en el que un componente no-LLM confirme solo la petición exacta aprobada por la política. Nunca deje que la salida libre del planificador dispare el efecto secundario.
- Defienda ambas fronteras, no una. Un filtro de salida por sí solo no detiene la fuga por retransmisión interna; el endurecimiento del planificador por sí solo no detiene las escrituras no autorizadas. Mapee su agente frente a ambos modos de fallo y verifique que cada uno tenga un control.
- Aplique la Rule of Two como un presupuesto. Cuando un agente combine acceso a datos privados, entrada no confiable y comunicación externa sin humano en el bucle, trátelo como el caso que exige el confinamiento estructural más fuerte, o una aprobación humana.
- Valide con benchmarks adversarios. Pruebe las defensas candidatas contra suites como AgentDojo y ASB vigilando tanto el éxito de ataque como las métricas de fuga, no solo la utilidad, antes de confiar en una configuración en producción.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| Artículo SecureClaw | arXiv:2606.09549 | 2026-06-08 | Arquitectura de doble frontera; v1 |
| Resultados reportados | arXiv:2606.09549 | 2026-06-08 | 0 % ASR (ASB), 0,64 % ASR (AgentDojo), 3,23 % fuga (AgentLeak) — banco de los autores |
| Design Patterns for Securing LLM Agents | arXiv:2506.08837 | 2025-06-10 | Encuadre defensivo «restringir al agente» relacionado |
| OWASP State of Agentic AI Security 2026 | Help Net Security | 2026-06-11 | La inyección de prompts cubre 6 de 10 categorías agénticas |
El encuadre honesto no es «la inyección de prompts está resuelta». Es que las defensas más creíbles pasan de «hacer que el modelo rechace las instrucciones malas» a «asegurar que un modelo comprometido no pueda leer lo que no debe ni hacer lo que no debe». SecureClaw es un ejemplo reciente y concreto de ese desplazamiento, de lectura recomendada si opera un agente que toca a la vez secretos y el mundo exterior.