LASM: un mapa de 7 capas de los puntos ciegos en la defensa de agentes
Un estudio de 58 páginas revisado el 6 de mayo de 2026 reorganiza la seguridad de los agentes de IA por capa y por escala temporal sobre 116 papers. El mapa revela dónde hay ataques documentados pero ninguna defensa ni benchmark todavía.
¿Qué es esto?
El 25 de abril de 2026, Kexin Chu publicó en arXiv un estudio sistemático sobre la seguridad de los agentes LLM (2604.23338), revisado en una versión de 58 páginas el 6 de mayo de 2026. No es un ataque nuevo. Es una reorganización de la literatura existente — 116 papers de 2021 a 2026 — en torno a una pregunta que la mayoría de las taxonomías esquivan: ¿dónde reside realmente una amenaza dentro de un agente y en qué escala temporal se desarrolla?
La contribución es el Layered Attack Surface Model (LASM). La mayoría de las taxonomías de seguridad, incluidas el OWASP LLM Top 10 y MITRE ATLAS, clasifican las amenazas por tipo de ataque — prompt injection, jailbreak, envenenamiento de datos. Esto sirve para nombrar un incidente, pero oculta su posición dentro del sistema. LASM clasifica por estructura, y el mapa resultante hace visibles casillas vacías — lugares donde hay ataques documentados pero no defensas.
Cómo funciona
LASM es una cuadrícula 7×4. El eje vertical descompone la pila agéntica en siete capas:
Capa Qué reside aquí
------------------------- ------------------------------------------------
Foundation Pesos del modelo base y pipeline de entrenamiento
Cognitive Razonamiento, planificación, interfaz del prompt
Memory Estado persistente entre turnos y sesiones
Tool Execution Llamadas a herramientas/funciones, código, efectos externos
Multi-Agent Coordination Delegación y mensajería entre agentes
Ecosystem Registros, marketplaces, servidores MCP, plugins
Governance Política, auditoría, identidad, control de acceso
El eje horizontal es una temporalidad de cuatro clases — el tiempo que tarda un ataque en manifestarse:
- Instantánea — se resuelve en una sola respuesta (prompt injection clásica).
- Persistente en la sesión — se establece una vez y permanece activa el resto de la sesión.
- Acumulativa entre sesiones — se construye lentamente a lo largo de muchas sesiones (envenenamiento de memoria, deriva lenta del corpus).
- Entre capas dentro de la sesión — se propaga entre capas durante una ejecución: un resultado de herramienta reescribe la memoria, que luego orienta la planificación.
Volcar los 116 papers en esta cuadrícula 7×4 es el experimento. El resultado es un mapa de calor de la atención. Las capas bajas y los tiempos cortos — la capa Cognitive, la prompt injection instantánea — están saturados. Las capas altas (Ecosystem, Governance) y las casillas de largo horizonte y entre capas están dispersas o vacías. Según el estudio: varias regiones de ataque documentadas no tienen ninguna defensa correspondiente, y los benchmarks actuales no ofrecen ninguna cobertura de los modos de fallo entre sesiones o entre capas dentro de la sesión.
Por qué importa
El valor está en el espacio negativo. Una cuadrícula que solo listara lo que sí se ha estudiado sería una revisión de literatura; lo que hace a LASM útil operativamente es que vuelve legibles las casillas no estudiadas. Si su modelo de amenaza es «parcheamos la prompt injection en la frontera de entrada», LASM muestra que esa frontera es una casilla en una superficie de 28, y que las casillas más relevantes para agentes en producción — corrupción acumulativa de memoria, abuso de delegación entre agentes, confianza en registros y marketplaces, evasión de gobernanza — son justamente las menos defendidas.
Esto coincide con lo que ya muestra el registro de incidentes. Los ataques de envenenamiento de memoria y cargas latentes (Trojan Hippo, MemMorph) habitan la capa Memory en escala entre sesiones — una región que el estudio señala como pobre en defensas y ausente de los benchmarks. Los ataques de cadena de suministro y de registros (registros skill.md, confianza de servidores MCP) se sitúan en la capa Ecosystem, cerca de la cima de la pila donde la cobertura cae. El estudio convierte estas anécdotas en una afirmación estructural: el esfuerzo defensivo se concentra donde los ataques son fáciles de demostrar, no donde son más difíciles de detener.
El estudio es un mapa, no un parche. No mide cuán explotable es cada casilla en su despliegue, y una casilla dispersa puede serlo porque la amenaza es teórica, no porque se la ignore. Léalo como una lista de verificación de cobertura, no como un ranking de severidad.
Defensas
LASM es en sí mismo un instrumento defensivo. Maneras concretas de usarlo:
-
Puntúe su propia cobertura en la cuadrícula. Tome las siete capas × cuatro temporalidades y marque, con honestidad, qué casillas tocan sus controles actuales. La mayoría de los equipos descubre que el filtrado de entrada y la validación de salida cubren la esquina Cognitive/instantánea y poco más. Las casillas vacías son su backlog.
-
Priorice la monitorización de largo horizonte y entre capas. Las regiones poco defendidas son las acumulativas entre sesiones y las entre capas dentro de la sesión. Eso aboga por controles que abarquen tiempo y componentes: procedencia de las escrituras en memoria, comparación de memoria entre sesiones y trazado de cómo un resultado de herramienta se propaga a la planificación posterior — no solo escáneres por prompt.
-
Adopte un Agent Bill of Materials. El estudio publica un esquema de referencia AgentBOM — un inventario de los modelos, herramientas, almacenes de memoria, subagentes y registros de un agente. No se defienden las capas Ecosystem y Governance que no se han inventariado. Un AgentBOM se alinea con el trabajo paralelo de AI SBOM de OWASP.
-
Mapee sus benchmarks, no solo sus ataques. Dado que el estudio muestra que los benchmarks ignoran los modos de fallo entre sesiones y entre capas, un panel en verde construido solo sobre evaluaciones de un turno mide únicamente la esquina saturada. Añada casos de prueba de largo horizonte y multiagente, o trate esas casillas como no medidas por defecto.
-
Use el DAG de dependencias para priorizar. El paper separa las brechas de ingeniería a corto plazo (abordables ya) de los desafíos de investigación fundamental (problemas abiertos). Gaste primero el presupuesto de remediación en las brechas de ingeniería; lleve las cuestiones de investigación como riesgo residual aceptado en lugar de fingir que existe un control.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| Estudio LASM v1 | arXiv:2604.23338 | 2026-04-25 | Marco 7×4 inicial |
| Estudio LASM v2 | arXiv:2604.23338v2 | 2026-05-06 | 58 páginas, 8 figuras, 15 tablas; 116 papers codificados |
| Artefactos publicados | arXiv | 2026-05-06 | Codificación por paper, scripts de robustez, esquema AgentBOM |
| OWASP LLM Top 10 | OWASP GenAI | 2025 | Taxonomía por tipo de ataque que LASM complementa |
| MITRE ATLAS | MITRE | continuo | Catálogo de técnicas para cruzar referencias |
El encuadre que conviene retener: este paper no le dice que los agentes son inseguros — eso ya lo sabía. Le dice hacia qué esquina de la sala apunta la luz y qué proporción del resto sigue a oscuras. Para un defensor, las casillas oscuras son el entregable.