DEFENSE
(75)75 hack(s).
MemMark: atribuir una memoria de agente envenenada solo con la instantánea
Un artículo de arXiv del 26 de mayo de 2026 inscribe la propiedad en las decisiones latentes de escritura de memoria de un agente: la procedencia sobrevive incluso si se borran los registros y solo queda la instantánea final.
Cognitive Firewall: una defensa distribuida para agentes de navegador
Un artículo de eBay de marzo de 2026 combina un centinela local, un planificador en la nube y un guardia de ejecución determinista para reducir la inyección indirecta en agentes de navegador del 100 % a menos del 1 %.
AI Control Roadmap de DeepMind: defensa en profundidad para agentes no alineados
El AI Control Roadmap de Google DeepMind (junio de 2026) trata a los agentes de IA internos como posibles amenazas internas, superponiendo supervisión por modelos de confianza al alineamiento.
LLM salting: rotar la dirección de rechazo para romper la reutilización de jailbreaks
El «LLM salting» de SophosAI (CAMLIS 2025) aplica una pequeña rotación a la dirección de rechazo de un modelo: un jailbreak precalculado contra el modelo base deja de transferirse a tu despliegue — la defensa de las rainbow tables, aplicada a los LLM.
Desorientación defensiva: por qué bloquear jailbreaks automatizados puede volverse en contra
Un artículo de junio de 2026 modela el juez automático del atacante y muestra que los rechazos predecibles alimentan su bucle de búsqueda — propone desorientación controlada en vez de simple bloqueo.
El desaprendizaje de backdoors generaliza: eliminar un disparador puede suprimir otros
Un artículo de junio de 2026 muestra que enseñar a un LLM a ignorar un disparador de backdoor también puede debilitar otras backdoors nunca atacadas, cuando sus desplazamientos de activación internos son próximos, medidos con una nueva métrica: CASD.
Por qué fallan los rechazos de los agentes: el Cybersecurity Refusal Framework
Un nuevo benchmark muestra que los rechazos de seguridad de los agentes dependen de la cadena de URL, no del objetivo real. Dos trucos triviales — falsas «reglas de enfrentamiento» y proxy localhost — convierten el rechazo en obediencia sobre sitios de producción.
Seguridad MCP: la pregunta no es qué ataques existen, sino dónde deben estar las defensas
Un artículo de arXiv de abril de 2026 mapea los ataques a MCP en seis capas arquitectónicas y halla defensas desiguales y demasiado centradas en la herramienta, dejando la orquestación del host, el transporte y la cadena de suministro estructuralmente desprotegidos.
Localizar la inyección de prompts: de la detección a la escisión forense
Detectar una inyección de prompts solo indica que algo va mal. Dos trabajos de 2026, PromptLocate y WebSentinel, identifican con precisión qué fragmento del contexto está envenenado para extirparlo y recuperar la tarea.
SEAgent: control de acceso obligatorio contra la escalada de privilegios de los agentes
Un artículo de enero de 2026 replantea los ataques a agentes como escalada de privilegios — acciones que exceden el mínimo privilegio necesario — y propone SEAgent, una capa MAC/ABAC determinista aplicada sobre un grafo de flujo de información.
Cordon: contención transaccional para agentes LLM con herramientas
Un artículo de arXiv del 16 de junio de 2026 propone 'transacciones semánticas': un runtime que retiene los efectos irreversibles de un agente y valida todo el flujo de la tarea antes de confirmar.
AuthGraph: alineación de doble grafo contra la inyección en agentes
Un artículo de UCLA del 26 de mayo de 2026 compara un grafo de autorización limpio con el grafo de procedencia real del agente, reduciendo el éxito de ataque del 40 % al 1 % en AgentDojo.
SkillVetBench: un LLM-juez que ve lo que los escáneres de skills pasan por alto
Un artículo de arXiv del 14 de junio de 2026 muestra que los escáneres de skills a nivel de código omiten entre el 89 % y el 100 % de las amenazas a nivel de instrucción, mientras un LLM-juez detecta las 78 skills maliciosas de prueba sin ningún falso positivo.
SafeMCP: filtrar la adquisición de herramientas para frenar la búsqueda de poder en agentes MCP
Un artículo de arXiv del 1 de junio de 2026 (ACL 2026) propone SafeMCP, un plugin del lado del servidor que usa razonamiento anticipatorio con un modelo del mundo para filtrar la adquisición de herramientas peligrosas antes de que un agente MCP amplíe sus poderes.
La tríada letal ya es la norma: defienda a los agentes en tiempo de ejecución
La tríada letal antes señalaba agentes de riesgo. A mediados de 2026 describe a todo agente útil, así que evitarla por arquitectura ya no basta. La defensa se traslada a cinco señales de comportamiento en ejecución.
DoubtProbe: detectar jailbreaks que reorganizan la intención
Un artículo de junio de 2026 propone una defensa en tiempo de inferencia que trata la detección de jailbreaks como una comprobación de coherencia: reconstruir la petición bajo restricciones estructurales y señalar los prompts cuyo significado no sobrevive a la ida y vuelta.
Detectar ataques en el tráfico de llamadas a herramientas: gana el contenido
Un estudio de arXiv de mayo de 2026 sobre la supervisión de llamadas a herramientas MCP halla que los embeddings de contenido impulsan la detección (AUROC > 0,89), que la estructura de grafo aporta poco y que los splits aleatorios inflan los resultados hasta 26 puntos.
RUBAS: una señal de recompensa fina para la seguridad de agentes mediante RL con rúbricas
Un artículo de junio de 2026 sustituye la recompensa binaria rechazar/ejecutar por cuatro rúbricas puntuadas — uso de herramientas, argumentos, respuesta y utilidad — para entrenar agentes que se mantienen seguros sin perder utilidad.
SkillGuard: un marco de permisos para lo que una skill de agente puede hacer en ejecución
Un artículo de junio de 2026 cierra la brecha entre lo que una skill inyecta en el contexto de un agente y lo que le hace hacer, mediante manifiestos, control de acceso deny-by-default y monitorización en ejecución.
Backdoors señuelo: eliminar backdoors LLM desconocidas mediante mecanismos internos compartidos
Un artículo de junio de 2026 elimina backdoors invisibles plantando una visible: distintas backdoors comparten patrones de activación internos, así que borrar un «señuelo» controlado debilita también la desconocida.
Las defensas por procedencia de la memoria-grafo de los agentes son ciegas por construcción
Un artículo de arXiv fechado el 10 de junio de 2026 muestra que los controles de procedencia sobre la memoria-grafo de los LLM se eluden sin falsificar ninguna fuente: una escritura de estructura no confiable cambia qué hechos autenticados se seleccionan, y el control de flujo de información nunca lo ve.
La privacidad de un agente es un problema de trayectoria: OCELOT presupuesta la fuga por inferencia en tiempo de ejecución
Un artículo de arXiv fechado el 10 de junio de 2026 replantea la privacidad de los agentes LLM como control de riesgo a posteriori: no filtrar cada salida, sino presupuestar cuánto puede mejorar la creencia de un adversario sobre un secreto a lo largo de toda una trayectoria.
Skills de agente verificados: gobernanza de capacidades para la cadena SKILL.md
Los skills de agente verificados de NVIDIA (19 de mayo de 2026) añaden escaneo de riesgos, firma criptográfica y tarjetas de skill legibles por máquina a la cadena SKILL.md — una respuesta defensiva a los skills envenenados.
Parallax: poner la seguridad de los agentes en la arquitectura, no en el prompt
Un position paper publicado el 14 de abril de 2026 sostiene que las salvaguardas a nivel de prompt se derrumban en cuanto se compromete el razonamiento de un agente, y propone separar estructuralmente lo que piensa de lo que actúa.
Arquitecturar agentes seguros: una defensa de «plan y política» contra la inyección de prompts
Un position paper de NVIDIA (31 de marzo de 2026) sostiene que la inyección indirecta de prompts no se resuelve solo en el modelo — y propone una arquitectura de «plan y política» que limita lo que un agente puede observar y decidir.
Por qué fallan los detectores de inyección de prompts: el problema de la evasión en 2026
De los clasificadores por palabras clave a las sondas de deriva de activación, los detectores de inyección de prompts comparten una debilidad: el adversario adaptativo. Dos estudios reportan hasta ~100 % de evasión. La detección es una capa, nunca la frontera.
Confidential Computing para IA agéntica: lo que los enclaves no protegen
Un estudio de mayo de 2026 proyecta el confidential computing sobre la pila agéntica: los enclaves de hardware protegen la memoria y la caché KV frente a un operador cloud malicioso, pero no detienen la prompt injection.
Por qué los jailbreaks se transfieren entre modelos — y cómo el «salado» contraataca
Un estudio sobre 20 modelos open-weight muestra que la transferencia de jailbreaks surge de las representaciones internas compartidas, no de un fallo del alineamiento. Una defensa llamada LLM salting rota la dirección de rechazo para romper la reutilización.
SafeHarbor: una barrera de memoria jerárquica que ataca el sobre-rechazo de los agentes
Aceptado en ICML 2026, SafeHarbor es una barrera sin reentrenamiento que inyecta reglas de seguridad contextuales desde un árbol de riesgos autoevolutivo — 63,6 % de utilidad benigna en GPT-4o rechazando más del 93 % de los ataques.
La inyección de prompts no está resuelta: conténgala a velocidad de máquina
En Infosecurity Europe 2026, Ariel Fogel (OWASP) calificó la inyección de prompts como un problema arquitectónico sin resolver y defendió pasar de la prevención a la contención en ejecución, tan rápida como el agente.
SecureClaw: una defensa de doble frontera para agentes LLM con herramientas
Un artículo de junio de 2026 propone proteger dos fronteras distintas a la vez —autorizar las acciones externas en el punto de efecto y confinar el texto plano en la frontera de lectura— con un 0 % de éxito de ataque en un benchmark de agentes.
PI-Hunter: auditar agentes para exponer y localizar inyecciones de prompt ocultas
Un artículo de junio de 2026 de investigadores de Google replantea el red-teaming de inyección de prompts como auditoría: PI-Hunter hace evolucionar casos de prueba anclados en la fuente para revelar dónde entra y se propaga una inyección latente en un agente, no solo si el ataque tiene éxito.
Inyección por flujo de herramientas: por qué fallan las defensas estáticas de agentes y qué corrige el verify-before-commit
Un artículo de enero de 2026, VIGIL, replantea la inyección indirecta en torno al flujo de herramientas — descripciones falsificadas y mensajes de error falsos — y muestra que cuanto mejor alineado está un agente, más les obedece.
Dentro de GitHub Agentic Workflows: una arquitectura de seguridad para agentes de CI/CD
GitHub Agentic Workflows llegó a versión preliminar pública el 11 de junio de 2026 con un diseño centrado en la seguridad: agentes sin secretos en una jaula chroot, un cortafuegos de workflow, escrituras en cola y verificadas, y un trabajo de detección de amenazas. La respuesta defensiva a la inyección de prompts en CI/CD.
TRUSTDESC: derivar las descripciones de herramientas del código para desactivar el tool poisoning
Un artículo de abril de 2026 ataca el tool poisoning de raíz: generar la descripción de una herramienta a partir de su implementación en lugar de confiar en el texto del autor, neutralizando el envenenamiento implícito que los detectores no ven.
La Recuse Signal: un robots.txt para agentes que poseen credenciales reales
Un artículo de junio de 2026 propone una señal de «denegación» in-band — emitida por un banner SSH o un NOTICE de PostgreSQL — que pide cortésmente a un agente autónomo que se retire. En un piloto indujo un 100 % de recusación, pero un encuadre de autorización hizo volver al modelo más capaz.
El trilema de la defensa: por qué los wrappers anti-inyección no pueden ser completos
Una prueba verificada en Lean 4 (abril de 2026) demuestra que ningún wrapper de entrada continuo que preserve la utilidad puede bloquear toda inyección de prompts. Continuidad, utilidad y completitud no coexisten.
AgentDyn: por qué las defensas anti-inyección que brillan en benchmarks fallan en el mundo real
AgentDyn, un benchmark de ICML de febrero de 2026, prueba diez defensas anti-inyección de primer nivel en tareas de agente dinámicas y abiertas. Casi todas son inseguras o sobredefienden hasta volverse inservibles.
La supervisión tiene una capacidad: cuando más aprobaciones hacen al agente menos seguro
Un artículo de arXiv del 8 de junio de 2026 modela al revisor humano detrás de la puerta de aprobación de un agente como un recurso finito que se fatiga, y muestra que escalar más acciones puede reducir la seguridad real y abrir un ataque por saturación.
CASA: control de acceso basado en tareas que contrasta cada llamada a una herramienta con la intención real del usuario
Un artículo de arXiv del 4 de mayo de 2026 propone Continuous Agent Semantic Authorization: una capa zero-trust que extrae la tarea del usuario de una conversación multironda y deniega las llamadas a herramientas que no encajan.
ADR: detección y respuesta para agentes MCP, probado a escala de Uber
Un artículo de mayo de 2026 de Uber describe un sistema tipo EDR para agentes MCP: telemetría causal completa, detección en dos niveles y red teaming offline, desplegado en más de 7.200 hosts durante diez meses.
ePCA: sustituir las barreras semánticas de agentes por verificación formal
Un artículo de mayo de 2026 propone ePCA, una barrera que compila cada acción del agente en lógica de primer orden y ejecuta una verificación SMT antes de actuar, bloqueando los pasos peligrosos como bloqueos lógicos.
AgentTrust: revisar las llamadas a herramientas de un agente antes de ejecutarlas
Un preprint del 6 de mayo de 2026 presenta AgentTrust, una capa de ejecución que inspecciona cada llamada a herramienta antes de que se ejecute y devuelve permitir / advertir / bloquear / revisar, incluso sobre cargas de shell ofuscadas.
Detectar la extracción de modelos observando la ventana de tráfico, no las consultas aisladas
Un artículo de junio de 2026 muestra que una simple prueba de distribución (MMD sobre embeddings de consultas, calibrada solo con tráfico legítimo) detecta campañas de extracción ocultas en tráfico de API mixto — 0,3 % de falsos positivos, 100 % en tráfico puramente atacante.
La seguridad de los agentes es un problema de sistema: tratar al modelo como no confiable
Un position paper de mayo de 2026 (Google, UCSD, UW–Madison) sostiene que la seguridad de los agentes debe salir del modelo y trasladarse al sistema: tratar al LLM como un componente no confiable e imponer las invariantes a su alrededor.
Need to Know: reescritura de consultas por integridad contextual
Un artículo de arXiv del 2 de junio de 2026 replantea la reescritura de consultas respetuosa con la privacidad como un problema de integridad contextual: enviar un dato al LLM en la nube solo si la tarea lo necesita, no porque se haya reconocido un tipo de PII.
Membrane: una memoria de seguridad contrastiva que adapta las barreras sin reentrenar
Un artículo de arXiv del 4 de junio de 2026 propone Membrane, una barrera autoevolutiva que asocia cada ataque bloqueado con una petición benigna casi idéntica, reduciendo el rechazo excesivo al 7-14 % y liderando el F1 en seis jailbreaks.
Lockdown Mode de OpenAI: cortar la vía de exfiltración del prompt injection
El 6 de junio de 2026 OpenAI amplió Lockdown Mode a las cuentas personales y Business de autoservicio de ChatGPT: un ajuste determinista que desactiva los canales de salida usados para exfiltrar datos mediante prompt injection.
THRD: una defensa temporal sin reentrenamiento contra jailbreaks multironda
Un artículo de junio de 2026 sostiene que un jailbreak multironda debe evaluarse sobre toda la conversación, no turno a turno. THRD agrega el riesgo en el tiempo y reduce la tasa de éxito de los ataques al 0,2–4 %, sin reentrenamiento.
Dos trampas metodológicas que inflan las puntuaciones de los detectores de inyección de prompts
Un preprint de arXiv del 1 de junio de 2026 muestra que la mayoría de los benchmarks de detectores de inyección de prompts y jailbreak se apoyan en el ajuste de umbral por conjunto de datos y en puntos de operación no divulgados — dos hábitos que inflan discretamente la precisión anunciada.
AgentVisor: un patrón tipo hipervisor de SO que audita cada llamada a herramienta
Un artículo de arXiv del 27 de abril de 2026 toma la idea del hipervisor de SO para defender agentes LLM con herramientas: un «visor» de confianza audita cada llamada y es arquitectónicamente ciego al contenido no confiable.
Taxonomía v2.0 de modos de fallo agénticos de Microsoft: la evasión zero-click del humano en el bucle
La taxonomía v2.0 del AI Red Team de Microsoft (4 de junio de 2026) añade siete modos de fallo agénticos y señala la evasión del humano en el bucle como la más explotada — incluidas cadenas zero-click a partir de una sola entrada externa.
El agente que escribe sus propios registros: por qué no se puede confiar en los audit trails autoinformados
Si un agente comprometido genera su propio registro de actividad, puede omitir, alterar o fabricar lo que hizo. Tres trabajos de junio de 2026 — Notarized Agents (arXiv), un borrador del IETF sobre audit trail de agentes y SCITT — convergen en la misma solución: mover la frontera de confianza fuera del agente.
Cuando fallan las defensas por embedding en sistemas multiagente LLM
Un artículo de arXiv del 1 de mayo de 2026 demuestra que los detectores que descartan un agente malicioso por el embedding de sus mensajes se desploman ante un texto vuelto casi benigno — y propone las señales de confianza por token como reemplazo más robusto.
PISmith: el red teaming con RL adaptativo sigue rompiendo las defensas anti-inyección
Un artículo de marzo de 2026 entrena un modelo atacante con aprendizaje por refuerzo para poner a prueba las defensas anti-inyección en caja negra — y 8 defensas de última generación caen, incluso en AgentDojo e InjecAgent.
La recuperación híbrida BM25 + vectores redujo el envenenamiento RAG del 38 % al 0 %
Un preprint de arXiv del 10 de marzo de 2026 muestra que añadir BM25 disperso a la recuperación densa bloquea toda una clase de envenenamiento de corpus RAG optimizado por gradiente, sin tocar el LLM.
AgentShield: detectar agentes comprometidos con honeytokens y herramientas señuelo
Un artículo de mayo de 2026 aplica la ingeniería del engaño a los agentes LLM con herramientas: herramientas falsas, credenciales falsas y listas blancas de parámetros con las que tropieza un agente secuestrado. Reporta una detección del 90,7 al 100 % de los ataques exitosos, sin falsas alarmas.
OWASP Agent Memory Guard: una capa en tiempo de ejecución contra el envenenamiento de memoria de agentes
Cubierto por Help Net Security el 1 de junio de 2026, Agent Memory Guard es la primera implementación de referencia de OWASP para ASI06: una capa lista para usar que filtra cada lectura y escritura de la memoria de un agente según una política YAML.
Detectar la exfiltración de credenciales en agentes LLM antes del token de salida
Publicado el 2 de junio de 2026, un artículo de arXiv detecta las fugas de credenciales de un agente antes de cualquier token de salida, combinando sondas de activación, honeytokens calibrados y contabilidad de fuga multironda.
Agent Threat Rules: un «Sigma para agentes de IA» — y lo que confiesan sus cifras de recall
ATR ofrece reglas de detección YAML abiertas para ataques a agentes, ya en producción en Microsoft, Cisco y Gen Digital. Sus propios benchmarks muestran por qué la detección por regex es una capa, no un perímetro.
SnapGuard: detectar la inyección en lo que el agente ve, no en lo que parsea
Un artículo de abril de 2026 propone un detector ligero para agentes web basados en capturas de pantalla, donde las defensas textuales son ciegas. Lee los píxeles renderizados — estabilidad de gradientes y texto con polaridad invertida — en 1,81 s por página.
DataShield: cuando un fine-tuning inocuo erosiona la seguridad de un modelo
Un artículo de arXiv del 29 de mayo de 2026 muestra que ajustar un LLM alineado con datos inofensivos degrada igualmente su seguridad, y propone DataShield para detectar las muestras responsables antes del entrenamiento.
Deje de evaluar las defensas anti-jailbreak solo por la tasa de éxito
Un artículo de IEEE S&P de mayo de 2026 sostiene que la tasa de éxito de ataque —la métrica por defecto del campo— oculta cómo se comportan realmente las defensas anti-jailbreak. Su Security Cube las evalúa en varios ejes a la vez.
Separadores dinámicos: reforzar Polymorphic Prompt Assembling frente a la inyección
Un artículo de arXiv del 28 de mayo de 2026 corrige un fallo de «radio de impacto» en Polymorphic Prompt Assembling generando un separador SHA-256 único por petición, bajando la tasa de éxito de un payload de 0,88 a 0,38.
El triángulo de compromisos: defensas contra inyección de prompts en tutores LLM
Un benchmark de mayo de 2026 sobre defensas anti-inyección para tutores educativos LLM cuantifica una verdad incómoda: ningún guardarraíl gana a la vez en robustez, usabilidad y latencia.
Los jailbreaks dejan rastro: detectarlos en las activaciones internas del LLM
Un artículo de febrero de 2026 y su continuación de marzo de 2026 muestran que un prompt de jailbreak graba una firma distintiva en las activaciones ocultas del modelo, lo que permite detectarlo en inferencia sin fine-tuning ni un modelo juez auxiliar.
Atribución causal: una defensa emergente contra la inyección indirecta
Un grupo de papers de inicios de 2026 — CausalArmor y AttriGuard — defiende a los agentes con herramientas preguntando qué acciones están causadas por contenido no confiable y no por el usuario. Repaso de la defensa por atribución causal.
Un millón de servicios de IA expuestos: lo que el escaneo de Intruder encontró realmente
El 5 de mayo de 2026, Intruder publicó los resultados de un escaneo de internet que mapeó un millón de servicios de IA expuestos en dos millones de hosts. El fallo recurrente no es exótico: son las configuraciones por defecto permisivas.
MCP necesita un apretón de manos de confianza: admisión atestiguada de servidores de herramientas
Un paper de arXiv del 22 de mayo de 2026 propone mcp-attested — una extensión retrocompatible de MCP que condiciona todo despacho de herramientas a una aserción firmada, una allowlist deny-by-default y un registro de auditoría a prueba de manipulaciones.
WARD: un modelo guardián co-evolucionado que resiste inyecciones de prompt adaptativas en agentes web
Un artículo de la NUS del 14 de mayo de 2026 propone WARD —un modelo guardián entrenado contra un atacante adversarial con memoria— y reporta recall casi perfecto fuera de distribución frente a inyecciones de prompt en agentes web.
Project Glasswing: Claude Mythos halla más de 10 000 bugs críticos en un mes
La actualización publicada por Anthropic el 26 de mayo de 2026 indica que cerca de 50 socios de Project Glasswing han usado Claude Mythos Preview para identificar más de 10 000 vulnerabilidades de severidad alta o crítica, incluidas 271 fallas latentes parcheadas en Firefox 150.
Agents Rule of Two: la respuesta pragmática de Meta al prompt injection
Publicada el 31 de octubre de 2025 por Meta y retomada en la guía de Databricks de mayo de 2026, la Agents Rule of Two limita cada sesión de agente a dos de tres propiedades de riesgo — el marco más accionable mientras el prompt injection siga sin solución.
ARGUS: una defensa por grafo de procedencia contra la inyección de prompts contextual
Publicado el 5 de mayo de 2026, el paper ARGUS introduce la auditoría por grafo de influencia para agentes LLM — la tasa de éxito de ataque cae del 28,8 % al 3,8 % en un nuevo benchmark.
Jerarquía de instrucciones: entrenar a los LLM para priorizar órdenes privilegiadas
El artículo de OpenAI de 2024 propone una defensa estructural frente a la inyección de prompt: enseñar al modelo que sistema > usuario > salida de herramienta. La idea ya es central en el entrenamiento de GPT-4o-mini y la serie o.
El filtrado de salida vence a la autodefensa del modelo: 20 000 ataques adaptativos, un solo superviviente
Publicado el 26 de abril y revisado el 12 de mayo de 2026, un artículo de Swept AI / Michigan enfrentó nueve defensas contra inyección de prompts a un atacante adaptativo. Todas las defensas del lado del modelo terminaron cediendo. El filtrado de salida en la aplicación resistió — cero fugas en 15 000 ataques.