DEFENSE LOW NEW

Agent Threat Rules: un «Sigma para agentes de IA» — y lo que confiesan sus cifras de recall

ATR ofrece reglas de detección YAML abiertas para ataques a agentes, ya en producción en Microsoft, Cisco y Gen Digital. Sus propios benchmarks muestran por qué la detección por regex es una capa, no un perímetro.

2026-06-03 // 6 min affects: langchain, crewai, autogen, mcp-servers, claude-code, github-copilot

¿Qué es esto?

Agent Threat Rules (ATR) es un formato abierto, versionado y legible por máquina para describir reglas de detección de ataques contra agentes de IA: inyección de prompts, envenenamiento de herramientas, compromiso de habilidades (skills) y exfiltración de contexto. Help Net Security cubrió su paso a producción el 3 de junio de 2026; el proyecto se presenta como un «Sigma para agentes de IA», igual que Sigma estandarizó la detección SIEM y YARA las firmas de malware. Las reglas son documentos YAML que declaran un patrón de ataque, el campo de entrada a inspeccionar (entrada del LLM, argumentos de llamada a herramientas o contenido de SKILL.md) y los casos de prueba que demuestran que la regla se dispara. Un motor de referencia en TypeScript y un wrapper de Python, pyATR, se publican bajo licencia MIT.

El interés no está en el eslogan, sino en la transparencia. El proyecto publica sus propias cifras de recall, corpus por corpus, incluidas las malas. Esa honestidad es justamente lo que permite a un defensor razonar sobre dónde ayuda la detección por reglas y dónde falla.

Cómo funciona

Una regla filtra los eventos del runtime de un agente —prompts de usuario, llamadas a herramientas, intercambios MCP, operaciones de memoria, instalaciones de skills— mediante patrones regex y umbrales de comportamiento, y luego declara una respuesta (bloquear, alertar, poner en cuarentena, escalar). Como cada regla incluye casos de prueba verdaderos-positivos y verdaderos-negativos, el conjunto de reglas es en sí mismo verificable y revisable por pares, una propiedad de la que suelen carecer las listas de bloqueo de los guardarraíles clásicos.

Las cifras del benchmark son lo esencial. Según el informe de Help Net sobre las mediciones version-pinned de ATR:

Corpus (version-pinned)        Recall    Significado
-----------------------------  --------  ----------------------------------------
garak jailbreaks «in-the-wild»  98.0%    Payloads conocidos y estructurados: detectados
garak (todas las familias)     38.5%     Espacio de ataque ampliado: la mayoría escapa
hackaprompt                    66.0%     Ataques humanos variados: parcial
AdvBench / HarmBench           1.3 / 2.5%  Conjuntos adversariales académicos: casi nulos
JailbreakBench                 5.0%
PromptBench / PromptInject     0.0%      Ataques parafraseados / semánticos: ciego

El mantenedor, Adam Lin, aborda el problema de frente: cada regla de esas evaluaciones de baja puntuación superaba sus propios casos de prueba verdaderos-positivos y verdaderos-negativos, y aun así el recall agregado es casi nulo. La división es estructural. Una capa regex detecta lo que puede expresar —cadenas de ataque fijas y estructuradas— y es ciega a lo que no: las cargas parafraseadas y reformuladas semánticamente. El proyecto lo documenta como una brecha de cobertura en lugar de ocultarlo, y recomienda combinar ATR con el corretaje de credenciales (credential brokering), la ejecución en sandbox y la revisión humana para acciones de alto riesgo.

Por qué importa

Dos cosas son ciertas a la vez, y ambas importan a los defensores.

Primero, la detección de agentes por fin gana un vocabulario común. ATR cubre 10 de las 10 categorías del OWASP Agentic Top 10 y declara 78 de 85 técnicas SAFE-MCP (91,8 %), con reglas individuales que referencian CVE reales en Microsoft Semantic Kernel, Spring AI, LiteLLM y Claude Code. El formato ya está en producción: el Agent Governance Toolkit de Microsoft sincroniza automáticamente un paquete de reglas ATR cada semana, Cisco AI Defense ejecuta uno en su skill-scanner, MISP en CIRCL fusionó un clúster de inteligencia, y Gen Digital (matriz de Norton, Avast y AVG) fusionó un paquete. Un formato neutral respecto a los proveedores, legible por máquina y consumido por varias herramientas del Fortune 500 supone un avance real frente a que cada equipo escriba su propia lista de bloqueo sin documentar.

Segundo, la tabla de recall es una advertencia contra tratar un detector de patrones como un perímetro. 98 % en jailbreaks conocidos y 0 % en ataques parafraseados es la firma de la detección regex en todas partes: excelente con los ataques ya vistos, ciega ante la novedad. Un atacante capaz de reformular —es decir, la mayoría— sortea la regla. El modelo mental correcto es el de la inmunidad innata: rápida, barata, de amplia cobertura sobre patrones conocidos y explícitamente no un sustituto de las defensas semánticas y arquitectónicas más lentas que atrapan lo desconocido.

Defensas

ATR es una capa de detección. Despliéguela como una entrada más de una defensa en profundidad, no como el muro.

Ejecute la detección por reglas sobre los eventos que importan. Conecte ATR (o cualquier motor conforme) para inspeccionar la E/S del LLM, los argumentos de llamadas a herramientas y los eventos de SKILL.md/instalación de skills. Es barato, rápido y atrapa los ataques estructurados de alto volumen: una reducción real del ruido.
Asuma que la capa regex es evitable y arquitecte detrás de ella. Combine la detección con corretaje de credenciales, ejecución en sandbox y tokens de alcance estrecho, de modo que una inyección que las reglas pasen por alto caiga en un radio de impacto contenido. Es la propia recomendación del mantenedor.
Condicione las acciones de alto impacto a una aprobación humana o por política. Los pasos irreversibles o sensibles —enviar datos, escribir en producción, ejecutar código— no deben depender de que se haya disparado un patrón. La detección informa; una persona o un motor de políticas confirma.
Añada una capa semántica para la brecha de las paráfrasis. Donde el regex obtiene 0 % (PromptBench, PromptInject), un clasificador basado en LLM o en embeddings es el control complementario. Use las reglas para el 95 % de tráfico conocido y la capa semántica para la cola novedosa.
Siga el benchmark, no el titular. Para evaluar un producto de seguridad de agentes, exija recall y precisión version-pinned por corpus, exactamente lo que ATR publica. Una mera afirmación de «bloquea la inyección de prompts» sin desglose por corpus es infalsable.
Reporte sus falsos positivos. El valor del formato crece con el ajuste comunitario. Las reglas optimizadas para recall por encima de la precisión se dispararán por error en su carga; reportarlas es lo que convierte un estándar compartido en uno bueno.

Estado

Elemento	Referencia	Fecha	Notas
Paso de ATR a producción (cobertura)	Help Net Security	2026-06-03	400+ reglas; «Sigma para agentes de IA»
Primera versión pública (v0.1.0)	GitHub	2026-03-09	29 reglas, borrador RFC, licencia MIT
Recall garak «in-the-wild»	ATR version-pinned	2026-06	98,0 % en jailbreaks estructurados conocidos
garak (todas las familias) / PromptBench	ATR version-pinned	2026-06	38,5 % / 0,0 % — brecha de paráfrasis
Cobertura OWASP Agentic Top 10	ATR	2026-06	10/10 categorías; SAFE-MCP 78/85 (91,8 %)
Adoptantes en producción	Help Net, sitio del proyecto	2026-04 → 2026-06	Microsoft AGT, Cisco AI Defense, MISP/CIRCL, Gen Digital

La conclusión no es «ATR no funciona»: sobre los ataques que está diseñado para atrapar, los atrapa, y un formato de reglas abierto y compartido se hacía esperar. La conclusión es que sus propios benchmarks honestos trazan la frontera por usted. La detección por reglas es la capa interna rápida y barata de la defensa de agentes, y el agujero con forma de paráfrasis que la atraviesa es exactamente donde su sandbox, su acotación de credenciales y su humano en el bucle deben hacer el trabajo.