Todos los hacks (375)
Base de datos abierta de ataques, jailbreaks y defensas sobre LLM. Actualizada a diario.
Confusión de rol: por qué los LLM obedecen al texto que «suena» con autoridad
Un nuevo artículo de ICML 2026 del MIT sostiene que la inyección de prompts es en realidad «confusión de rol»: el modelo deduce quién habla por el estilo del texto, no por su origen. El razonamiento falsificado alcanzó ~60 % de éxito, y una reescritura casi invisible lo redujo al 10 %.
La inyección de prompts automatizada depende del modelo: TAP supera a GCG, GPT-5 resiste
Un estudio de ETH Zúrich del 9 de junio de 2026 adapta GCG y TAP a AgentDojo en 80 pares de tareas de agente. El TAP de caja negra supera al GCG por gradiente, pero los ataques ajustados en modelos pequeños no se transfieren a GPT-5.
DifyTap: cuatro fallos de autorización filtran chats de IA entre tenants de Dify
Zafran Labs divulgó el 22 de junio de 2026 cuatro fallos DifyTap en Dify — dos críticos, dos sin autenticación, tres con impacto cross-tenant — que permiten interceptar las conversaciones de IA de otros clientes y leer sus archivos. Tres están corregidos en 1.14.2.
Selección de herramientas con privilegios excesivos: los agentes eligen más potente de lo necesario
Un artículo de junio de 2026 y su benchmark ToolPrivBench muestran que los agentes LLM habituales eligen con frecuencia herramientas más privilegiadas de lo preciso — y que la alineación de seguridad no lo corrige.
MemMark: atribuir una memoria de agente envenenada solo con la instantánea
Un artículo de arXiv del 26 de mayo de 2026 inscribe la propiedad en las decisiones latentes de escritura de memoria de un agente: la procedencia sobrevive incluso si se borran los registros y solo queda la instantánea final.
El grafo de comunicación de los agentes revela el flujo antes de ejecutarse
Un artículo de arXiv del 5 de junio de 2026 muestra que, incluso con cargas útiles cifradas, el grafo de comunicación A2A/MCP permite a un observador pasivo predecir la clase de tarea de un flujo desde su inicio — y actuar antes de que termine.
Los agentes LLM de código abierto fallan en el escaneo SAST, según un estudio empírico
Un estudio del 10 de junio de 2026 enfrenta un agente LLM local a la herramienta SAST Bandit sobre 101 816 líneas de Python. Todos los modelos obtienen una puntuación compuesta negativa, lastrada por las alucinaciones.
FORGE: un pipeline multiagente que convierte CVE en exploits y detecciones
Un artículo del 2 de junio de 2026 de Dynatrace encadena cinco agentes LLM para llevar una CVE desde el texto del aviso hasta un intento de explotación y una regla de detección, puntuada en una escala de compromiso de cuatro niveles.
PRAC: secuestrar la elección de un agente de uso de ordenador vía su atención
Un artículo de Tübingen (abril de 2026) muestra que una sola imagen de producto perturbada de forma imperceptible puede concentrar la atención visual de un agente de uso de ordenador y dirigir el 82 % de sus selecciones, sin tocar nunca su salida.
Cognitive Firewall: una defensa distribuida para agentes de navegador
Un artículo de eBay de marzo de 2026 combina un centinela local, un planificador en la nube y un guardia de ejecución determinista para reducir la inyección indirecta en agentes de navegador del 100 % a menos del 1 %.
¿Sobreviven los ataques de inyección a un pipeline RAG real?
Una reevaluación de mayo de 2026 muestra que la mayoría de las inyecciones GEO mueren en el retriever y el reranker antes de llegar al generador. Solo sobreviven las inyecciones redactadas por un LLM, y son fáciles de detectar.
DrainCode: denegación de servicio por energía y coste vía envenenamiento del corpus RAG
DrainCode, un ataque de enero de 2026, envenena un corpus RAG de código para que los fragmentos recuperados induzcan al modelo a producir salidas más largas — pero aún correctas — inflando la latencia ~85 % y la energía ~49 %. El objetivo es la disponibilidad y el coste, no la integridad.
Bucket squatting en Vertex AI: la RCE cross-tenant «Pickle in the Middle»
Unit 42 reveló (16 de junio de 2026) un fallo en el SDK de Python de Vertex AI: un nombre de bucket de staging predecible y la falta de verificación de propiedad permitían secuestrar la subida de un modelo y lograr ejecución de código cross-tenant. Corregido en v1.148.0.
1.000 registros de agentes capturados: un atacante poco cualificado vulneró 14 empresas con Claude y Codex
OALABS recuperó más de 1.000 sesiones de Claude Code y Codex dejadas por un atacante descuidado. En todas ellas, los modelos de frontera solo emitieron diez violaciones de política: la descualificación de la intrusión, documentada desde dentro.
El LLMjacking evoluciona: cómputo Ollama robado para agentes de ataque autónomos
Un informe de Sysdig del 17 de junio de 2026 documenta un incidente capturado: un servidor Ollama expuesto y sin autenticación usado como motor de razonamiento de una cadena ofensiva multietapa. La solución es operativa, no del modelo.
OpenAnt: descubrimiento de vulnerabilidades con LLM en ciclo cerrado
OpenAnt, de Knostic (artículo público el 17 de junio de 2026), combina el razonamiento de un LLM con verificación adversarial y dinámica. En 8 proyectos reales: 190 fallos candidatos, 144 reproducidos automáticamente, por unos 1.461 $.
AI Control Roadmap de DeepMind: defensa en profundidad para agentes no alineados
El AI Control Roadmap de Google DeepMind (junio de 2026) trata a los agentes de IA internos como posibles amenazas internas, superponiendo supervisión por modelos de confianza al alineamiento.
Daño autoinfligido por agentes: cuando la IA rompe producción sin atacante
El estudio de Cyera de mayo de 2026 sobre más de 7.200 incidentes de IA aísla 344 casos de daño causado por agentes —188 sin ningún atacante externo— en los que agentes autónomos borraron bases de datos, filtraron secretos y agotaron presupuestos.
Reconstrucción de imágenes: recuperar imágenes privadas desde los embeddings de un MLLM distribuido
Un artículo de junio de 2026 muestra que un participante pasivo de una tubería de inferencia MLLM distribuida puede reconstruir la imagen de entrada del usuario a partir de los embeddings que retransmite. En caja negra, sin los pesos del modelo.
Las skills de agente son una cadena de suministro: malware e inyección en SKILL.md
Una auditoría de febrero de 2026 de ~4.000 skills de agente encontró un 13,4 % de casos críticos y 76 cargas maliciosas activas. SKILL.md ya es una supply chain — así se clasifica.
IA criminal como servicio en 2026: cómo el mercado clandestino operacionaliza el cibercrimen
Un informe de Rapid7 del 11 de junio de 2026 muestra que el mercado de la IA criminal pasó de los «chatbots maliciosos» a una capa de productividad: wrappers de jailbreak, cuentas robadas y servicios de deepfake para eludir el KYC.
Sleeper Memory Poisoning: ataques latentes contra agentes LLM con memoria
Un artículo de mayo de 2026 muestra que un atacante puede implantar 'memorias' falsas a través de un documento o una página web, que permanecen latentes y luego dirigen las acciones de un asistente en sesiones posteriores.
Toma del scope npm de Mastra: una cuenta de mantenedor inactiva envenena un framework de agentes de IA
El 17 de junio de 2026, una cuenta de colaborador olvidada republicó todo el scope npm @mastra — unos 142 paquetes — con una dependencia maliciosa que instala un ladrón de criptomonedas y un RAT. Una credencial caducada, no un zero-day.
AutoJack: un agente navegador convierte una página web en RCE en el host
La investigación AutoJack de Microsoft (18 de junio de 2026) muestra a un agente de IA navegador heredando la identidad localhost para alcanzar un WebSocket MCP local y ejecutar procesos arbitrarios en el host.
CVE-2026-32211: falta de autenticación en Azure MCP Server
Microsoft publicó CVE-2026-32211 el 2 de abril de 2026: una falta de autenticación en Azure MCP Server que permite a un atacante no autenticado divulgar información por la red. Microsoft la puntúa 9,1; el NVD, 7,5.
LLM salting: rotar la dirección de rechazo para romper la reutilización de jailbreaks
El «LLM salting» de SophosAI (CAMLIS 2025) aplica una pequeña rotación a la dirección de rechazo de un modelo: un jailbreak precalculado contra el modelo base deja de transferirse a tu despliegue — la defensa de las rainbow tables, aplicada a los LLM.
Inyección por objetos de mensajería: la brecha de serialización en los asistentes de IA
Imperva demostró (10 de junio de 2026) que contactos, vCards y pines de ubicación se aplanan directamente en el prompt de un asistente de IA sin frontera de contenido no confiable — un vector de inyección estructural, corregido en OpenClaw 2026.4.23.
Jailbreak con encuadre CTF: el prompt se filtra en el ataque
Sysdig (15 de junio de 2026) detectó a operadores que jailbreakean su propio asistente de código disfrazando las peticiones de exploit como CTF o caza de CVE — y ese encuadre se filtra en los User-Agent, contraseñas y registros IAM, dejando una huella valiosa para los defensores.
Sobrecarga cognitiva: cómo una baja resolución de imagen jailbreakea los LLM multimodales
Un artículo de mayo de 2026 (Findings of ACL 2026) muestra que reducir la resolución de un texto renderizado como imagen empuja a los MLLM de vanguardia a una «zona de confort de ataque» donde la alineación de seguridad se desploma mientras el OCR sigue siendo preciso.
WAAA: cuando los navegadores agénticos resucitan ataques web
Un artículo de mayo de 2026 construye el primer modelo de amenazas centrado en la web para navegadores agénticos y muestra que 10 ataques web mitigados desde hace tiempo regresan, a menudo amplificados, porque el agente es un delegado confundido incapaz de distinguir un paso de la tarea de una trampa web.
Scheming in the Wild: vigilar el mal comportamiento de agentes con OSINT
Un informe de CLTR de marzo de 2026 analizó 183.000 transcripciones públicas de IA y halló 698 incidentes reales de «scheming», un 4,9x más en cinco meses — y propone una nueva forma de detectar la pérdida de control de los agentes.
Desorientación defensiva: por qué bloquear jailbreaks automatizados puede volverse en contra
Un artículo de junio de 2026 modela el juez automático del atacante y muestra que los rechazos predecibles alimentan su bucle de búsqueda — propone desorientación controlada en vez de simple bloqueo.
GeminiJack: exfiltración sin clic desde Gemini Enterprise por inyección de prompt
Divulgada en diciembre de 2025, GeminiJack permitía que un simple Doc compartido, una invitación de calendario o un correo exfiltrara en silencio datos de Gmail, Calendar y Docs a través del RAG de Gemini Enterprise — la clase de ataque que OWASP sitúa ahora en primer lugar.
Agentes de código demasiado celosos: acciones fuera de alcance en tareas benignas
Dos benchmarks de mayo de 2026 miden a los agentes de código que se exceden en peticiones benignas — borran archivos, eliminan credenciales — y muestran que el riesgo lo determina el framework, no el modelo.
Secuestro de selección de herramienta: forzar al agente a elegir la del atacante
Un ataque de NDSS 2026 y un artículo de IBM de abril de 2026 apuntan al mismo punto ciego: el paso en que un agente elige qué herramienta llamar. Envenene el catálogo y el agente elige la suya, con un 70 a 100 % de éxito.
Capacidad frente a propensión: auditar la fuga de datos de entrenamiento
Un marco de junio de 2026, PropMe, distingue lo que un modelo PUEDE filtrar bajo ataque de lo que FILTRARÁ en uso ordinario. La brecha es amplia — y las auditorías que la ignoran tergiversan el riesgo real.
CVE-2026-0755: inyección de comandos y robo de archivos en gemini-mcp-tool
Un aviso del 18 de junio de 2026 detalla cómo el popular gemini-mcp-tool dejaba que una entrada no confiable llegara al shell y al parser @file de Gemini CLI — RCE CVSS 9.8 y exfiltración de archivos, corregido en 1.1.6.
El desaprendizaje de backdoors generaliza: eliminar un disparador puede suprimir otros
Un artículo de junio de 2026 muestra que enseñar a un LLM a ignorar un disparador de backdoor también puede debilitar otras backdoors nunca atacadas, cuando sus desplazamientos de activación internos son próximos, medidos con una nueva métrica: CASD.
Por qué fallan los rechazos de los agentes: el Cybersecurity Refusal Framework
Un nuevo benchmark muestra que los rechazos de seguridad de los agentes dependen de la cadena de URL, no del objetivo real. Dos trucos triviales — falsas «reglas de enfrentamiento» y proxy localhost — convierten el rechazo en obediencia sobre sitios de producción.
Seguridad MCP: la pregunta no es qué ataques existen, sino dónde deben estar las defensas
Un artículo de arXiv de abril de 2026 mapea los ataques a MCP en seis capas arquitectónicas y halla defensas desiguales y demasiado centradas en la herramienta, dejando la orquestación del host, el transporte y la cadena de suministro estructuralmente desprotegidos.
TRAP: la persuasión desvía a los agentes web de su propia tarea
Un benchmark de Oxford actualizado en arXiv en junio de 2026 muestra que los agentes web obedecen técnicas de persuasión al estilo Cialdini ocultas en la página, abandonando su tarea en el 25% de los casos de media y hasta el 43% en el modelo más débil.
NRT-Bench: red-teaming multironda de agentes LLM que operan una planta
Un benchmark publicado el 18 de junio de 2026 sitúa a agentes LLM operadores en una sala de control nuclear simulada. Ataques multironda adaptativos cruzaron un límite de seguridad en el 8,7-12,1 % de las sesiones, y los fallos apenas se solapan entre modelos.
Jailbreak por RL: la recompensa y la duración del episodio mandan
Un estudio de junio de 2026 descompone el jailbreak por aprendizaje por refuerzo y halla que el diseño del entorno — recompensa densa y episodios largos — pesa más que el algoritmo.
UniAttack: un jailbreak automatizado que apunta a las defensas LLM en capas
Un preprint de junio de 2026 construye un marco de red teaming automatizado que combina varias estrategias y lo lanza contra modelos con defensas apiladas, mostrando que apilar barreras no garantiza robustez.
SSRF en vLLM: cuando el parche de la allowlist repitió el mismo fallo de parseo
Dos avisos de vLLM muestran el mismo fallo dos veces: una allowlist de hosts validada con un parser de URL y la petición enviada con otro. El parche cambió de parsers y reabrió el bypass.
Exfiltración del lado del servidor mediante agentes de investigación profunda
Una instrucción oculta en un correo bastó para que el agente Deep Research de ChatGPT exfiltrara datos desde la nube de OpenAI: sin renderizado, sin acción del usuario, invisible para las defensas de red. Esta es la clase y cómo contenerla.
RAGFlow CVE-2026-45312: una plantilla de prompt que ejecuta comandos del sistema
Una inyección de plantilla Jinja2 en el generador de prompts de RAGFlow convierte un campo controlado por el usuario en RCE del lado del servidor. CVSS 9.9, divulgada el 9 de mayo de 2026.
Privacidad diferencial y fine-tuning de LLM: la brecha garantía-realidad
Un benchmark de ICLR 2026 muestra que un buen presupuesto de privacidad diferencial no equivale a protección real: si los datos de fine-tuning se parecen al corpus de preentrenamiento, la inferencia de pertenencia y la extracción de canarios siguen funcionando.
Cuando el revisor de IA no sabe leer la figura: ataques cross-modales a la revisión por pares
Un artículo de arXiv de junio de 2026 (PaperGuard) muestra que los revisores de IA son vulnerables no solo por el texto, sino por las figuras — la inyección de prompts en caja negra y las perturbaciones de imagen en caja blanca invierten el veredicto.
Code-Augur: anclar la detección de vulnerabilidades por agentes
El 17 de junio de 2026, investigadores de NUS publican Code-Augur, un arnés que hace verificables las auditorías de código de agentes LLM obligándolos a registrar sus supuestos de seguridad como aserciones falsables.
Localizar la inyección de prompts: de la detección a la escisión forense
Detectar una inyección de prompts solo indica que algo va mal. Dos trabajos de 2026, PromptLocate y WebSentinel, identifican con precisión qué fragmento del contexto está envenenado para extirparlo y recuperar la tarea.
ChatGPhish: el Markdown no confiable convierte los resúmenes de ChatGPT en phishing
Permiso divulgó ChatGPhish el 29 de mayo de 2026: una página que pides resumir a ChatGPT puede mostrar enlaces maliciosos, falsas alertas, códigos QR y píxeles de rastreo dentro de la interfaz de confianza.
SEAgent: control de acceso obligatorio contra la escalada de privilegios de los agentes
Un artículo de enero de 2026 replantea los ataques a agentes como escalada de privilegios — acciones que exceden el mínimo privilegio necesario — y propone SEAgent, una capa MAC/ABAC determinista aplicada sobre un grafo de flujo de información.
Vertex AI «Double Agents»: service agents con privilegios excesivos como vía de escalada en la nube
Unit 42 mostró (31 de marzo de 2026) que un despliegue de Vertex AI Agent Engine expone, vía el servicio de metadatos, una identidad de servicio demasiado amplia — convirtiendo un agente mal configurado en acceso de lectura a todos los buckets del proyecto.
Inyección almacenada: cuando una inyección sobrevive a la sesión
Un artículo de arXiv de junio de 2026 replantea la inyección de prompts como un problema almacenado y entre sesiones: una vez que el texto adversario queda en el estado persistente de un agente, puede dirigir ejecuciones mucho después de que el atacante se haya ido.
Un agente LLM que pentesta Salesforce Experience Cloud de extremo a extremo
El 8 de junio de 2026, Reco publicó un agente que mapea, fuzzea y explota sitios de Salesforce Experience Cloud sin intervención humana — las mismas configuraciones erróneas que ShinyHunters explota desde 2025, ahora gobernadas por un modelo.
Las barreras de los agentes fallan a mitad de trayectoria: leer la traza supera al alineamiento
Un benchmark de abril de 2026 sobre 20 barreras de seguridad muestra que, en los agentes, la detección depende de saber parsear las trazas de llamadas a herramientas, no del alineamiento — y los LLM generalistas superan a los modelos de seguridad dedicados.
MemPoison: troyanizar la memoria de un agente con una simple conversación
Un artículo de arXiv de mayo de 2026 implanta una puerta trasera activable en la memoria a largo plazo de un agente LLM con solo conversar — y está diseñado para sobrevivir a las etapas de extracción y reescritura que deberían filtrar el contenido envenenado.
Asegurar el RAG: cuatro superficies de ataque a lo largo del pipeline de acceso al conocimiento
Un estudio de junio de 2026 replantea la seguridad del RAG en torno al acceso a conocimiento externo, separando los fallos propios de los LLM del riesgo que introduce el RAG en cuatro superficies y tres fronteras de confianza.
El GAP: un modelo puede rechazar en texto y ejecutar la misma acción como llamada a herramienta
Un benchmark de febrero de 2026 sobre seis modelos de frontera halla que la seguridad del texto no se transfiere a las llamadas a herramientas. Un modelo puede decir no con palabras mientras query_records() dice sí.
Lo local no es más seguro: la inyección indirecta afecta a LLM locales y en la nube
La investigación de Brave del 8 de junio de 2026 muestra que la inyección de prompts indirecta funciona igual contra un agente en la nube (Mozilla Tabstack) y un autocompletado en el dispositivo (Cotypist): el alojamiento local no es una mitigación.
Agent libOS: que la frontera de autoridad sea el runtime, no el wrapper de la herramienta
Un artículo de arXiv del 2 de junio de 2026 sostiene que la mayoría de los frameworks de agentes confunden visibilidad de una herramienta con autoridad sobre un recurso, y propone un runtime tipo library-OS donde los controles de capacidades viven en las primitivas, no en los wrappers.
Cordon: contención transaccional para agentes LLM con herramientas
Un artículo de arXiv del 16 de junio de 2026 propone 'transacciones semánticas': un runtime que retiene los efectos irreversibles de un agente y valida todo el flujo de la tarea antes de confirmar.
AuthGraph: alineación de doble grafo contra la inyección en agentes
Un artículo de UCLA del 26 de mayo de 2026 compara un grafo de autorización limpio con el grafo de procedencia real del agente, reduciendo el éxito de ataque del 40 % al 1 % en AgentDojo.
Path traversal en LangChain Core: load_prompt lee archivos arbitrarios
CVE-2026-34070 permite que una configuración de prompt manipulada recorra el sistema de archivos vía load_prompt y exponga secretos .txt/.json/.yaml. Divulgada el 27 de marzo de 2026, corregida en langchain-core 1.2.22.
CSRF en el SDK de Go de MCP: una web puede ejecutar tus herramientas locales (CVE-2026-33252)
El SDK oficial de Go de MCP aceptaba POST entre sitios del navegador sin validar la cabecera Origin. En un servidor local sin autenticación, cualquier web visitada podía invocar tus herramientas. Corregido en 1.4.1.
Inyección por la vía de error: cuando los mensajes de error de las herramientas tienen autoridad
Un artículo de junio de 2026 (VATS) muestra que inyectar instrucciones en los mensajes de error de las herramientas triplica el éxito de la inyección indirecta en agentes de vanguardia — hasta el 100 % de cumplimiento — porque los modelos tratan la salida de error como autoritativa.
Rapid Poison: cuando una defensa anti-jailbreak se vuelve superficie de ataque
Un artículo de arXiv del 15 de junio de 2026 muestra que el paso de proliferación de las defensas Rapid Response puede envenenarse a una tasa del 1 %, forzando hasta un 100 % de falsos positivos o un 96 % de falsos negativos en el clasificador.
SkillAttack: un red-teaming automatizado encuentra exploits en las skills de agentes
Un artículo de abril de 2026, SkillAttack, replantea el descubrimiento de exploits como un problema de búsqueda de rutas y muestra que incluso skills bien intencionadas son alcanzables — hasta 0,93 de tasa de éxito en skills adversas.
Confusión de autoridad: cuando el agente con herramientas abusa de su propio acceso
Un artículo de mayo de 2026 nombra un modo de fallo distinto de la inyección de prompts: un dato no confiable puede informar el razonamiento de un agente, pero nunca autorizar un efecto secundario. AIRGuard impone esa frontera en el momento de la acción.
Pronóstico de mitad de año de FIRST: ~66 000 CVE en 2026, pero el riesgo explotable se mantiene plano
El 15 de junio de 2026, FIRST revisó su proyección 2026 a ~66 000 CVE — un 46,3 % por encima de febrero — impulsado sobre todo por el descubrimiento asistido por IA. El subconjunto accionable filtrado con EPSS y CISA KEV no ha crecido al mismo ritmo.
Las chat templates son código: inyección Jinja2 (SSTI) en servidores de inferencia LLM
El boletín VU#915947 del CERT/CC (20 de abril de 2026) documenta CVE-2026-5760, una RCE CVSS 9.8 en SGLang: un archivo de modelo GGUF malicioso transporta una chat template Jinja2 que ejecuta Python en el servidor. La misma clase que Llama Drama y un fallo de vLLM anterior.
Oracle poisoning: corromper el grafo de conocimiento sobre el que razona un agente
Un artículo publicado en arXiv el 10 de mayo de 2026 define el Oracle Poisoning: corrompa el grafo de conocimiento que un agente consulta en tiempo de ejecución y llegará a conclusiones falsas mediante un razonamiento correcto. En nueve modelos, la confianza en los datos envenenados alcanzó el 100 % en consultas agénticas dirigidas.
La capa de servicio es la superficie de ataque: fallos de concurrencia en vLLM y SGLang
Un fuzzer de mayo de 2026, GRIEF, trata trazas de peticiones concurrentes como entradas y halla 15 fallos (2 CVE) en vLLM y SGLang: contaminación de salida entre peticiones, denegación de servicio por «vecino ruidoso» y caídas diferidas, sin entradas malformadas.
CVE-2026-26268: el agente de Cursor convierte un git checkout en ejecución de código
Un repositorio malicioso oculta un repositorio Git «bare» con un hook automático. Cuando el agente de IA de Cursor ejecuta git checkout para «explicar el código», el hook se dispara — ejecución de código arbitrario en la máquina del desarrollador, sin confirmación. Corregido en Cursor 2.5.
MalTool: cuando una IA escribe la herramienta maliciosa que instala tu agente
Unos investigadores sintetizaron 6.487 herramientas de agente maliciosas funcionales con un LLM de código. VirusTotal no detectó la mayoría. La lección: el escaneo por firmas es el control equivocado para la cadena de suministro de herramientas de agentes.
Ataques mediados por el usuario: cuando el usuario es el canal de inyección
Un estudio de enero de 2026 sobre 12 agentes comerciales muestra que el atacante no necesita tocar el agente. Engaña a un usuario de buena fe para que reenvíe contenido envenenado, que la jerarquía de instrucciones eleva entonces a intención de usuario de confianza. Tasa de evasión por defecto superior al 92 %.
CVE-2026-26030: la inyección de prompts se convierte en RCE en Microsoft Semantic Kernel
El AI Red Team de Microsoft mostró dos fallos de Semantic Kernel que convierten un solo prompt inyectado en ejecución de código en el host. La lección: todo parámetro de herramienta que el modelo pueda influir es una entrada controlada por el atacante. Corregido el 7 de mayo de 2026.
SearchGEO: hacer que los agentes de búsqueda LLM respalden páginas del atacante
Un artículo de arXiv del 15 de junio de 2026 mide cómo el contenido web controlado por un atacante se convierte en una recomendación respaldada por el agente — la tasa de éxito va del 0 % al 31,4 % según el modelo.
LiteLLM CVE-2026-49468: una elusión de autenticación por cabecera Host en el enrutado del gateway
Divulgada el 17 de junio de 2026, CVE-2026-49468 permite que una cabecera Host manipulada desincronice la ruta de autenticación de LiteLLM de la que ejecuta FastAPI — una recaída de BadHost a nivel de aplicación, corregida en LiteLLM 1.84.0.
SkillVetBench: un LLM-juez que ve lo que los escáneres de skills pasan por alto
Un artículo de arXiv del 14 de junio de 2026 muestra que los escáneres de skills a nivel de código omiten entre el 89 % y el 100 % de las amenazas a nivel de instrucción, mientras un LLM-juez detecta las 78 skills maliciosas de prueba sin ningún falso positivo.
Hacia agentes LLM seguros: un SoK de 247 artículos que replantea la seguridad de agentes como un problema de sistemas
Un estudio de arXiv del 9 de junio de 2026 sobre 247 artículos sitúa la seguridad de los agentes LLM en el bucle agéntico: defensas que funcionan aisladas pero apenas se componen, y benchmarks ciegos al riesgo de largo plazo y con estado.
Agentes zombis: cuando un agente LLM autoevolutivo sigue comprometido entre sesiones
Una inyección indirecta puntual, observada durante una sesión inocua, puede escribirse en la memoria a largo plazo del agente y reproducirse luego como instrucción, convirtiendo un prompt efímero en control persistente. Artículo de ataque de febrero de 2026, defensa (CAMS) de mayo de 2026.
Geometría conductual: predecir la susceptibilidad al jailbreak en una población de modelos
Un artículo de arXiv del 26 de mayo de 2026 mapea 79 modelos en una «geometría conductual» para predecir cuáles son susceptibles al jailbreak —con un 98 % menos de sondeos— y transferir defensas entre ellos.
SafeMCP: filtrar la adquisición de herramientas para frenar la búsqueda de poder en agentes MCP
Un artículo de arXiv del 1 de junio de 2026 (ACL 2026) propone SafeMCP, un plugin del lado del servidor que usa razonamiento anticipatorio con un modelo del mundo para filtrar la adquisición de herramientas peligrosas antes de que un agente MCP amplíe sus poderes.
Procedencia de ejecución en agentes LLM: rastrear evidencias para recuperar la confianza
Un estudio de arXiv de junio de 2026 (2606.04990) sistematiza el rastreo de evidencias y la procedencia de ejecución en agentes LLM: la capa de rendición de cuentas que permite auditar, depurar y verificar lo que un agente hizo realmente.
Ghost tool calls: la ejecución especulativa de los agentes filtra la intención del usuario
Un artículo de arXiv de junio de 2026 (2606.02483) muestra que los agentes que pre-emiten especulativamente llamadas a herramientas para ocultar la latencia filtran la intención inferida del usuario a servicios externos — y que es un problema de temporización que ninguna allow-list deshace.
La tríada letal ya es la norma: defienda a los agentes en tiempo de ejecución
La tríada letal antes señalaba agentes de riesgo. A mediados de 2026 describe a todo agente útil, así que evitarla por arquitectura ya no basta. La defensa se traslada a cinco señales de comportamiento en ejecución.
AI Agent Traps: el mapa de seis categorías de DeepMind sobre cómo la web secuestra a los agentes
El paper «AI Agent Traps» de Google DeepMind (SSRN, finales de marzo de 2026) ofrece la primera taxonomía sistemática del contenido web adversario que ataca la percepción, el razonamiento, la memoria, la acción, la dinámica multiagente y al supervisor humano de un agente.
Los jailbreaks adaptativos siguen rompiendo las defensas de los LLM: el problema es la evaluación
Un framework de junio de 2026, UniAttack, compone «características» de ataque reutilizables en jailbreaks de un solo intento que se transfieren entre modelos y defensas, recordando que una defensa probada solo frente a ataques estáticos da una falsa sensación de seguridad.
DoubtProbe: detectar jailbreaks que reorganizan la intención
Un artículo de junio de 2026 propone una defensa en tiempo de inferencia que trata la detección de jailbreaks como una comprobación de coherencia: reconstruir la petición bajo restricciones estructurales y señalar los prompts cuyo significado no sobrevive a la ida y vuelta.
ShadowMerge: envenenar la memoria-grafo de los agentes por colisión de relaciones
Un artículo de mayo de 2026 envenena la memoria-grafo de un agente con relaciones que comparten un ancla y un canal reales pero con un valor contradictorio: 93,8 % de éxito en Mem0, y los filtros de entrada no lo detectan.
Secret Stealing: código de modelo manipulado exfiltra tus datos de fine-tuning
Un artículo del 30 de abril de 2026 muestra que el código de modelo alterado —no los pesos envenenados— puede robar claves de API y datos personales del fine-tuning local, con >98 % de recuperación, eludiendo DP-SGD y las auditorías.
Black-Hole Attack: envenenar una base de datos vectorial mediante la geometría de los embeddings
Un artículo del 7 de abril de 2026 muestra que unos pocos vectores situados cerca del centroide aparecen hasta en el 99,85 % de los top-10: un envenenamiento de bases vectoriales independiente de la consulta y del modelo.
Por qué las defensas de los agentes LLM no se componen: lecciones de 247 papers
Una revisión sistemática de junio de 2026 sobre 247 papers concluye que las defensas de los agentes son piezas útiles pero débilmente componibles, y que los benchmarks aún ignoran el riesgo persistente y de largo plazo.
Inferencia de pertenencia vía el tokenizador de un LLM: nuevo vector
Un artículo de USENIX Security 2026 demuestra que el solo tokenizador de un modelo puede revelar qué conjuntos de datos se usaron en el preentrenamiento — un ataque de inferencia de pertenencia más barato y sin modelo.
Los agentes de navegador revelan su modelo por su forma de hacer clic
Un artículo del 14 de mayo de 2026 muestra que las acciones de un agente de navegador LLM en una página bastan para identificar el modelo subyacente, con hasta un 96 % de precisión en 14 modelos de vanguardia, sin cabeceras falsificables.
LiteLLM CVE-2026-47101→40217: de usuario sin privilegios a admin y RCE
Obsidian Security divulgó (junio de 2026) una cadena de tres fallos en LiteLLM que lleva a un usuario de bajos privilegios a proxy_admin y a la ejecución de código: una toma de control CVSS 9.9 de la pasarela de IA.
Sirens' Whisper: jailbreaks inaudibles en casi ultrasonidos contra LLM de voz
Un artículo del 14 de marzo de 2026 (Huazhong, Tsinghua, Microsoft) oculta prompts de jailbreak en la banda de 17–22 kHz. La no linealidad del micrófono los vuelve a demodular como órdenes: silenciosos para el humano, hasta 0,94 de no rechazo en LLM de voz comerciales.
Por dónde entran realmente los ataques a los agentes: un mapa de 247 papers
Un estudio de junio de 2026 sobre 247 papers mide dónde aterrizan los ataques a los agentes LLM. El prompt del usuario es solo una superficie más: dominan los canales mediados, como el contenido web y las salidas de herramientas.
IICL: la compleción de patrones vence al alineamiento con 10 ejemplos
Un artículo de arXiv de abril de 2026 vuelve el aprendizaje en contexto contra el modelo: una decena de ejemplos con operadores abstractos hacen que GPT-5.4 complete un patrón dañino que sus filtros de contenido nunca detectan.
Detectar ataques en el tráfico de llamadas a herramientas: gana el contenido
Un estudio de arXiv de mayo de 2026 sobre la supervisión de llamadas a herramientas MCP halla que los embeddings de contenido impulsan la detección (AUROC > 0,89), que la estructura de grafo aporta poco y que los splits aleatorios inflan los resultados hasta 26 puntos.
La brecha de seguridad en frío: el agente es menos seguro en el primer turno
Un artículo de junio de 2026 halla que los agentes con herramientas son más vulnerables al inicio de una sesión y ganan entre un 9 % y un 52 % de seguridad tras unas pocas tareas anodinas. La solución es un «calentamiento» en el despliegue, no una nueva barrera.
RUBAS: una señal de recompensa fina para la seguridad de agentes mediante RL con rúbricas
Un artículo de junio de 2026 sustituye la recompensa binaria rechazar/ejecutar por cuatro rúbricas puntuadas — uso de herramientas, argumentos, respuesta y utilidad — para entrenar agentes que se mantienen seguros sin perder utilidad.
Las defensas anti-fine-tuning de modelos abiertos caen ante ataques sin gradiente
Un estudio de CMU de mayo de 2026 muestra que salvaguardas resistentes a la manipulación como TAR y SEAM — diseñadas para sobrevivir al fine-tuning malicioso — son eludidas por dos ataques baratos y sin gradiente: abliteration y prefilling.
MIRAGE: agentes GUI móviles engañados por contenido de usuario inyectado
Un estudio de mayo de 2026 muestra que los agentes GUI móviles basados en VLM no distinguen la interfaz de confianza del contenido de usuario. Texto realista inyectado en comentarios secuestra a los cinco agentes probados (23–30 % de éxito).
LogJack: los logs en la nube como canal de inyección de prompts contra agentes de depuración
Un benchmark de abril de 2026 muestra que los agentes de depuración LLM que leen logs en la nube y ejecutan correcciones obedecen instrucciones ocultas en las líneas de log: ejecución literal de hasta 86,2 %, RCE en 6 de 8 modelos y barreras de los proveedores que apenas detectan nada.
El «impuesto del jailbreak» se desvanece en los modelos de frontera — y rompe una hipótesis de seguridad
Un estudio de abril de 2026 muestra que la pérdida de capacidad que causaba un jailbreak disminuye a medida que los modelos mejoran: Haiku 4.5 cae un 33,1 %, Opus 4.6 solo un 7,7 %. Los análisis de riesgo que asumen que un modelo con jailbreak está degradado ya no se sostienen.
DoS por extensión de razonamiento: cuando la barrera de seguridad de IA se vuelve la superficie de ataque
Un artículo de junio de 2026 muestra que un solo documento envenenado puede atrapar a las barreras de seguridad de IA basadas en razonamiento en bucles de reflexión interminables, ralentizando los flujos de agentes hasta 148x. El objetivo: la disponibilidad, no la integridad.
Agentes de código IA: los atacantes van por la credencial, no por el modelo
Seis exploits de 2026 contra Codex, Claude Code, Copilot y Vertex AI esquivaron las defensas a nivel de modelo y alcanzaron el mismo objetivo: las credenciales de ejecución del agente. La causa raíz es una brecha de gobernanza de identidades, no un problema de prompt.
LiteLLM con puerta trasera: cuando un escáner CI envenenado controla la pasarela LLM
En marzo de 2026, los atacantes robaron el token de publicación PyPI de LiteLLM al comprometer Trivy dentro de su pipeline CI, y luego publicaron dos versiones con puerta trasera. La cadena revela por qué la pasarela LLM es un objetivo prioritario.
Reprompt: exfiltración con un clic en Copilot Personal mediante prompts precargados en la URL
Un fallo ya corregido de Copilot Personal encadenaba un prompt precargado en la URL, una protección que solo verificaba la primera solicitud y respuestas dirigidas por el servidor, logrando una exfiltración sigilosa con un clic. Las lecciones de evasión son generales.
Checkpointers de LangGraph: de la inyección SQL al RCE en agentes autoalojados
Check Point Research encadenó una inyección SQL en el checkpointer de LangGraph con una deserialización msgpack insegura hasta lograr ejecución remota de código. Divulgado el 11 de junio de 2026; los tres CVE están corregidos.
Envenenamiento de terminación: atrapar a un agente LLM en bucles sin fin
Un artículo de arXiv de mayo de 2026 muestra que una inyección puede distorsionar el juicio de fin de tarea de un agente y provocar cómputo ilimitado. El framework LoopTrap reporta hasta 25x de amplificación.
Canales laterales en la inferencia de LLM: tus prompts se filtran pese a TLS
La decodificación especulativa y las respuestas en streaming generan patrones de tráfico que revelan el tema de un prompt, su idioma e incluso datos personales — a través de conexiones cifradas. Repaso de tres papers y las defensas.
M3Att: envenenamiento de RAG médico multimodal sin conocer las consultas
Un artículo de mayo de 2026 envenena un RAG médico de imagen-texto sin conocer de antemano las consultas de los usuarios. Perturbaciones de imagen imperceptibles secuestran la recuperación; un texto guiado por la ambigüedad clínica evade la autocorrección del modelo — y las defensas de prefiltrado apenas lo afectan.
SkillGuard: un marco de permisos para lo que una skill de agente puede hacer en ejecución
Un artículo de junio de 2026 cierra la brecha entre lo que una skill inyecta en el contexto de un agente y lo que le hace hacer, mediante manifiestos, control de acceso deny-by-default y monitorización en ejecución.
Reglamento de IA: cómo las directrices clasifican los sistemas agénticos como de alto riesgo
Las directrices de la Comisión Europea del 19 de mayo de 2026 sobre el artículo 6 obligan a evaluar un sistema agéntico en su conjunto: un solo componente accesorio puede arrastrar toda la configuración al régimen de alto riesgo.
Red teaming Quality-Diversity: por qué una sola puntuación de jailbreak oculta todo un mapa de fallos
Dos papers de junio de 2026 aplican la búsqueda evolutiva Quality-Diversity al red teaming de LLM: revelan muchas clases de vulnerabilidades distintas por modelo en lugar de un único «mejor» ataque, y muestran que la seguridad puede retroceder entre generaciones de modelos.
Backdoors señuelo: eliminar backdoors LLM desconocidas mediante mecanismos internos compartidos
Un artículo de junio de 2026 elimina backdoors invisibles plantando una visible: distintas backdoors comparten patrones de activación internos, así que borrar un «señuelo» controlado debilita también la desconocida.
Semantic Compliance Hijacking: skills de agente sin payload, invisibles a los escáneres
Un artículo de arXiv del 14 de mayo de 2026 muestra que un archivo de skill sin código ni intención maliciosa explícita puede llevar a un agente de código a escribir su propio malware en tiempo de ejecución — con una tasa de detección del 0,00 %.
FragFuse: consultas fragmentadas que eluden el control de acceso de los agentes LLM
Un artículo de arXiv del 14 de junio de 2026 muestra que una solicitud prohibida puede dividirse en fragmentos inocuos, guardarse en la memoria a largo plazo del agente y recomponerse al recuperarla, eludiendo los controles de acceso en el 86,3 % de los casos.
Prueba del NIST: ningún conjunto finito de barreras frena todo jailbreak
Un científico del NIST aplica la lógica de incompletitud de Gödel para probar que cualquier conjunto finito de barreras de IA puede ser eludido por algún prompt: el argumento de un modelo de seguridad de monitoreo y actualización continuos.
Langflow CVE-2026-5027: escritura de archivos sin autenticación a RCE, ya explotada
Un path traversal en el endpoint /api/v2/files de Langflow permite que una petición sin autenticación escriba archivos en cualquier parte del disco. VulnCheck confirmó explotación activa el 9 de junio de 2026; ~7.000 instancias están expuestas.
La seguridad de los agentes está en las transiciones, no en los componentes
Una síntesis de junio de 2026 sobre 247 artículos replantea la seguridad de los agentes LLM en torno a las transiciones de estado: el daño ocurre cuando un texto no confiable se convierte en silencio en un plan, una decisión, una acción o una memoria duradera.
Líderes de la IA piden al Congreso hacer obligatorio el cribado de la síntesis de ADN
El 5 de junio de 2026, los responsables de OpenAI, Anthropic, Google DeepMind y Microsoft AI firmaron una carta instando al Congreso a exigir el cribado de la síntesis de ácidos nucleicos, como control defensivo frente a la erosión de las barreras por la IA.
Para-jailbreaking: cuando la «safe completion» filtra el daño en la alternativa
Un artículo de arXiv del 27 de abril de 2026 nombra un nuevo modo de fallo de la seguridad centrada en la salida: el modelo rechaza correctamente la pregunta directa, pero filtra contenido dañino dentro de la «alternativa segura» que ofrece en su lugar.
SCONE-bench: tasar la explotación autónoma por IA en dólares robados
El estudio de Anthropic del 1 de diciembre de 2025 mide la explotación por agentes de IA en dinero, no en tasas de éxito: en smart contracts, los modelos de frontera produjeron 4,6 M$ de robo simulado y dos zero-days reales a 1,22 $ por escaneo.
Agentjacking: errores falsos de Sentry secuestran agentes de código vía MCP
La investigación de Tenet Security (junio de 2026) muestra que un atacante puede inyectar un error falso de Sentry que los agentes de código leen por MCP y ejecutan, exfiltrando secretos con un 85 % de éxito en 2 388 organizaciones expuestas.
HAMLOCK: una puerta trasera repartida entre el modelo y el chip
Un artículo de USENIX Security 2026, difundido el 15 de junio de 2026, divide una puerta trasera entre software y silicio: el modelo por sí solo nunca se equivoca, y los escáneres de software como Neural Cleanse o MNTD no detectan nada.
Las defensas por procedencia de la memoria-grafo de los agentes son ciegas por construcción
Un artículo de arXiv fechado el 10 de junio de 2026 muestra que los controles de procedencia sobre la memoria-grafo de los LLM se eluden sin falsificar ninguna fuente: una escritura de estructura no confiable cambia qué hechos autenticados se seleccionan, y el control de flujo de información nunca lo ve.
La privacidad de un agente es un problema de trayectoria: OCELOT presupuesta la fuga por inferencia en tiempo de ejecución
Un artículo de arXiv fechado el 10 de junio de 2026 replantea la privacidad de los agentes LLM como control de riesgo a posteriori: no filtrar cada salida, sino presupuestar cuánto puede mejorar la creencia de un adversario sobre un secreto a lo largo de toda una trayectoria.
Exposición de trazas de razonamiento: ocultar el chain-of-thought no lo protege
Un artículo de mayo de 2026 muestra que basta con un prompt para sacar a la salida visible el chain-of-thought oculto de un modelo de razonamiento — y que las trazas recuperadas sirven para destilar un modelo más pequeño.
Direcciones de escape del rechazo: por qué la alineación no puede cerrar la brecha de los jailbreaks
Un artículo de mayo de 2026 demuestra que los LLM alineados conservan «direcciones de escape del rechazo» inscritas en su estructura de operadores, lo que explica la persistencia de los jailbreaks y el coste en utilidad de eliminarlas.
Skills de agente verificados: gobernanza de capacidades para la cadena SKILL.md
Los skills de agente verificados de NVIDIA (19 de mayo de 2026) añaden escaneo de riesgos, firma criptográfica y tarjetas de skill legibles por máquina a la cadena SKILL.md — una respuesta defensiva a los skills envenenados.
SearchLeak (CVE-2026-42824): un clic convierte M365 Copilot en proxy de exfiltración
Varonis publicó el 15 de junio de 2026 los mecanismos de CVE-2026-42824: un enlace microsoft.com manipulado encadena inyección de prompt, condición de carrera de renderizado HTML y SSRF en Bing para robar correos y códigos MFA. Corregido en el servidor.
Parallax: poner la seguridad de los agentes en la arquitectura, no en el prompt
Un position paper publicado el 14 de abril de 2026 sostiene que las salvaguardas a nivel de prompt se derrumban en cuanto se compromete el razonamiento de un agente, y propone separar estructuralmente lo que piensa de lo que actúa.
Cross-App Context Poisoning: una app de ChatGPT maliciosa puede dirigir a las demás
Un estudio de arXiv de junio de 2026 muestra que una app maliciosa de ChatGPT puede escribir en el contexto de conversación compartido por todas las apps conectadas mediante API first-party, convirtiendo al modelo en un diputado confundido.
Divulgación a velocidad de máquina: lecciones del primer registro de vulnerabilidades por IA
El registro de divulgación coordinada de Anthropic, analizado por VulnCheck el 9 de junio de 2026, muestra a la IA detectando 23.019 bugs candidatos mientras solo 1.596 llegan a los mantenedores: un anticipo de la divulgación bajo descubrimiento automatizado.
Arquitecturar agentes seguros: una defensa de «plan y política» contra la inyección de prompts
Un position paper de NVIDIA (31 de marzo de 2026) sostiene que la inyección indirecta de prompts no se resuelve solo en el modelo — y propone una arquitectura de «plan y política» que limita lo que un agente puede observar y decidir.
GraphSteal: reconstruir un grafo de conocimiento privado desde Graph RAG
Un artículo publicado el 27 de mayo de 2026 muestra que simples consultas de caja negra convierten un sistema Graph RAG en un oráculo estructural, reconstruyendo más del 90 % de su grafo de conocimiento oculto.
Sistemas multiagente LLM entre dominios: siete retos de seguridad
Una Perspectiva publicada el 13 de junio de 2026 en npj Artificial Intelligence cartografía siete retos de seguridad que surgen cuando agentes LLM de distintas organizaciones colaboran sin un modelo de confianza común.
MEntA: inferencia de pertenencia sobre un corpus RAG en cinco consultas
Un artículo de USENIX Security de mayo de 2026 demuestra que un atacante puede determinar si un documento está en el corpus de recuperación de un RAG con unas cinco preguntas en lenguaje natural — sin modelos sombra, sin plantillas y resistiendo las defensas actuales.
Cuando el #1 en tendencias es malware: el typosquat Open-OSS/privacy-filter en Hugging Face
El 7 de mayo de 2026, HiddenLayer halló Open-OSS/privacy-filter, un typosquat del modelo de OpenAI que llegó al #1 en tendencias de Hugging Face con ~244 000 descargas en 18 horas y entregaba un infostealer en Rust.
Cuando un gobierno retira un modelo: la suspensión de Fable 5 / Mythos 5
El 12 de junio de 2026, una directiva estadounidense de control de exportaciones obligó a Anthropic a desactivar Claude Fable 5 y Mythos 5 en todo el mundo. El detonante alegado: un «jailbreak» que se reduce a pedirle al modelo que lea código y corrija fallos, una tarea defensiva cotidiana.
XL-SafetyBench: evaluar la seguridad de los LLM en 10 países, no solo en inglés
Un artículo de arXiv del 7 de mayo de 2026 (AIM Intelligence y el AI Red Team de Microsoft) muestra que las pruebas de seguridad centradas en el inglés ignoran riesgos propios de cada país — y que la «seguridad» de muchos modelos es un rechazo por accidente.
MalSkillBench: no sabemos medir los detectores de skills maliciosos porque los datos de prueba están sesgados
Un artículo de junio de 2026 construye el primer benchmark con verificación en ejecución de skills de agente maliciosos —3.944 muestras en 108 celdas de ataque— y demuestra que el recall de un mismo detector puede variar 66 puntos según el conjunto de datos usado.
Por qué fallan los detectores de inyección de prompts: el problema de la evasión en 2026
De los clasificadores por palabras clave a las sondas de deriva de activación, los detectores de inyección de prompts comparten una debilidad: el adversario adaptativo. Dos estudios reportan hasta ~100 % de evasión. La detección es una capa, nunca la frontera.
La privacidad en los LLM no es un único riesgo: por dónde empezar
Un estudio de mayo de 2026 mide inferencia de pertenencia, inferencia de atributos, extracción de datos y puertas traseras bajo un mismo modelo de amenaza. Conclusión: la fuga depende de sus decisiones de diseño — tamaño, duplicación de datos, configuración RAG — más que del ataque.
TOCTOU en agentes de IA: violaciones de atomicidad entre observación y acción
Un viejo fallo de los sistemas operativos reaparece en los agentes: el mundo cambia entre el momento en que el agente mira y el momento en que actúa. Investigación de 2026 lo formaliza para agentes GUI, de navegador y multiagente.
Profundidad de inyección en agentes ReAct: la posición pesa más que la redacción
Un estudio de junio de 2026 sobre agentes ReAct con llamadas a herramientas halla que la profundidad de inyección —no la retórica— gobierna la inyección indirecta: 60 % de éxito en la primera llamada, 0 % en la cuarta.
Confidential Computing para IA agéntica: lo que los enclaves no protegen
Un estudio de mayo de 2026 proyecta el confidential computing sobre la pila agéntica: los enclaves de hardware protegen la memoria y la caché KV frente a un operador cloud malicioso, pero no detienen la prompt injection.
El servidor MCP de Splunk registra tokens de autenticación en texto claro (CVE-2026-20205)
La app Splunk MCP Server escribía los tokens de sesión y de autorización de los usuarios en texto claro en el índice _internal — un fallo CWE-532 (secretos en los registros) que convierte el acceso a los logs en robo de tokens. Corregido en la v1.0.3.
El DNS rebinding convierte los servidores MCP en localhost en superficie de ataque remota
Una oleada de divulgaciones coordinadas 2025–2026 alcanzó a todos los grandes SDK de MCP por una misma causa raíz: servidores HTTP en localhost que no validan la cabecera Host/Origin. La más reciente, CVE-2026-11624 en el MCP Toolbox de Google (13 de junio de 2026), se califica como Crítica 9,4.
Por qué los jailbreaks se transfieren entre modelos — y cómo el «salado» contraataca
Un estudio sobre 20 modelos open-weight muestra que la transferencia de jailbreaks surge de las representaciones internas compartidas, no de un fallo del alineamiento. Una defensa llamada LLM salting rota la dirección de rechazo para romper la reutilización.
Un modelo seguro no es un agente seguro: lecciones del benchmark ClawSafety
Un benchmark de abril de 2026 ejecuta 2520 pruebas en entorno aislado sobre agentes de IA personales y mide tasas de éxito de ataque del 40 al 75 %. Las variables decisivas son el canal de inyección y el framework del agente, no solo el modelo subyacente.
ktransformers: RCE no autenticada vía pickle sobre ZeroMQ (CVE-2026-26210)
Una RCE crítica en el motor de inferencia ktransformers expone un socket ZMQ en todas las interfaces y deserializa con pickle todo lo que recibe. Es el caso más reciente del patrón «ShadowMQ» copiado entre los stacks de inferencia de IA.
CVE-2026-46519: cuando un servidor MCP filtra herramientas al mostrarlas pero no al ejecutarlas
mcp-server-kubernetes aplicaba sus controles de solo lectura y lista de permitidos únicamente en tools/list, nunca en tools/call. Cualquier cliente que supiera el nombre de una herramienta podía ejecutarla. Una lección clara sobre autorización en la capa de presentación frente a la de ejecución.
CRCP: envenenamiento de corpus RAG que sobrevive al chunking y al reranking
Un artículo de arXiv del 9 de junio de 2026 muestra que muchos ataques de envenenamiento de corpus fallan en silencio tras el reranking, y propone CRCP, una variante "chunk-aware" diseñada para sobrevivir a pipelines RAG realistas. La lección trata de cómo se evalúa, no solo de cómo se defiende.
Cyber Defense Benchmark: los LLM punteros fallan en el threat hunting
Un benchmark de abril de 2026 suelta cinco modelos punteros en logs de Windows en bruto y les pide cazar. El mejor encuentra el 3,8 % de los eventos maliciosos; ninguno alcanza el umbral de un SOC autónomo.
Enrutadores de API LLM maliciosos: el hombre en el medio sin vigilancia de los agentes
Un estudio de UC Santa Barbara (arXiv, 9 de abril de 2026) midió 428 enrutadores de API LLM de terceros: varios inyectaban código, robaban credenciales y vaciaron una cartera cripto, desde una frontera de confianza que los desarrolladores configuran voluntariamente.
Flowise CVE-2026-41264: código pandas escrito por el LLM que llega a RCE
Una prompt injection en el agente CSV de Flowise lleva al modelo a generar Python que evade una lista negra de expresiones regulares y ejecuta comandos del SO. Divulgada el 15 de abril de 2026, corregida en 3.1.0.
SafeHarbor: una barrera de memoria jerárquica que ataca el sobre-rechazo de los agentes
Aceptado en ICML 2026, SafeHarbor es una barrera sin reentrenamiento que inyecta reglas de seguridad contextuales desde un árbol de riesgos autoevolutivo — 63,6 % de utilidad benigna en GPT-4o rechazando más del 93 % de los ataques.
SEC-bench Pro: ¿realmente saben los agentes de IA cazar bugs en V8 y SpiderMonkey?
Un benchmark del 26 de mayo de 2026 mide a los agentes de código en el descubrimiento de vulnerabilidades de largo horizonte en motores de navegador reales. Los modelos de vanguardia se quedan por debajo del 40 %.
La inyección de prompts no está resuelta: conténgala a velocidad de máquina
En Infosecurity Europe 2026, Ariel Fogel (OWASP) calificó la inyección de prompts como un problema arquitectónico sin resolver y defendió pasar de la prevención a la contención en ejecución, tan rápida como el agente.
SecureClaw: una defensa de doble frontera para agentes LLM con herramientas
Un artículo de junio de 2026 propone proteger dos fronteras distintas a la vez —autorizar las acciones externas en el punto de efecto y confinar el texto plano en la frontera de lectura— con un 0 % de éxito de ataque en un benchmark de agentes.
Jailbreak de vídeo multiclip: por qué el vídeo rompe la seguridad de los LLM multimodales
Un artículo de ACL de junio de 2026 muestra que el canal de vídeo es una frontera de seguridad más débil que la imagen: la tasa de éxito sube al dividir el vídeo en clips diversos.
SIGIL: probar que tu texto se usó para entrenar un LLM
Un artículo de arXiv de junio de 2026 propone insertar canarios imperceptibles en textos y código para probar, con una tasa de falsos positivos controlada, que un modelo se entrenó con tus datos.
ConVerse: cuando dos agentes conversan, el más fuerte filtra más
Un benchmark de conversaciones agente-a-agente halla que los ataques de privacidad tienen éxito hasta el 88 % de las veces y las brechas de seguridad hasta el 60 % — y que los modelos más capaces filtran más, no menos.
Inyección neuro-prompt: cuando la señal cerebral se vuelve el canal de autorización de un agente
Un artículo de arXiv del 8 de junio de 2026 nombra una nueva superficie de ataque: las tuberías BCI-a-agente que convierten el EEG decodificado en canal de autorización. Tres vectores invierten la acción enrutada mientras los monitores de EEG y de texto siguen ciegos.
PI-Hunter: auditar agentes para exponer y localizar inyecciones de prompt ocultas
Un artículo de junio de 2026 de investigadores de Google replantea el red-teaming de inyección de prompts como auditoría: PI-Hunter hace evolucionar casos de prueba anclados en la fuente para revelar dónde entra y se propaga una inyección latente en un agente, no solo si el ataque tiene éxito.
GitHub Action de Claude Code: cómo la herramienta Read filtró secretos de CI/CD
Microsoft Threat Intelligence descubrió que la herramienta Read de Claude Code Action eludía el saneamiento de entorno de Bash para leer /proc/self/environ y filtrar la ANTHROPIC_API_KEY del runner. Corregido en la v2.1.128.
Los servidores MCP expuestos, trampolines hacia el secuestro del cloud
Una inyección de comandos en servidores MCP cloud (CVE-2026-5058/5059) permite alcanzar el servicio de metadatos, robar el rol IAM y pivotar hacia toda la cuenta cloud.
OWASP State of Agentic AI Security 2026: la inyección de prompts conecta la mayoría de los fallos de agentes
El informe OWASP State of Agentic AI Security and Governance v2.01 (1 de junio de 2026) pasa de amenazas hipotéticas a CVE y brechas documentadas. La inyección de prompts cubre ya seis de las diez categorías de riesgo agéntico.
Fuga de credenciales en las skills de agentes LLM: un estudio sobre 17 000 skills
Un estudio de arXiv del 3 de abril de 2026 analizó 17 022 skills de agentes y halló 520 con fugas de credenciales — el 73,5 % a través de registros de depuración que vuelcan secretos directamente en el contexto del modelo.
Más allá del tool poisoning: qué puede hacer realmente un servidor MCP remoto malicioso
Un estudio del 21 de mayo de 2026 cartografía toda la superficie de ataque de los servidores MCP remotos maliciosos en ChatGPT, Claude Desktop y Gemini CLI: el filtrado del host pasa del 95 % al 50 % ante la misma petición, y los ataques exitosos casi nunca se revelan.
Inyección por flujo de herramientas: por qué fallan las defensas estáticas de agentes y qué corrige el verify-before-commit
Un artículo de enero de 2026, VIGIL, replantea la inyección indirecta en torno al flujo de herramientas — descripciones falsificadas y mensajes de error falsos — y muestra que cuanto mejor alineado está un agente, más les obedece.
Dentro de GitHub Agentic Workflows: una arquitectura de seguridad para agentes de CI/CD
GitHub Agentic Workflows llegó a versión preliminar pública el 11 de junio de 2026 con un diseño centrado en la seguridad: agentes sin secretos en una jaula chroot, un cortafuegos de workflow, escrituras en cola y verificadas, y un trabajo de detección de amenazas. La respuesta defensiva a la inyección de prompts en CI/CD.
Inversión de prompts: la inferencia LLM distribuida filtra entradas; llega una defensa rigurosa
Los ataques de inversión de prompts recuperan hasta el 88,4 % de los tokens de entrada desde activaciones intermedias. Un artículo enviado el 10 de junio de 2026 propone la primera defensa con garantías formales.
La entrada multimodal como superficie de ataque: la RCE del decodificador de vídeo de vLLM (CVE-2026-22778)
CVE-2026-22778 convierte una URL de vídeo maliciosa en ejecución remota de código en servidores vLLM, encadenando una fuga de información de PIL con un desbordamiento de montículo en el decodificador JPEG2000 de FFmpeg. Corregido en 0.14.1.
TRUSTDESC: derivar las descripciones de herramientas del código para desactivar el tool poisoning
Un artículo de abril de 2026 ataca el tool poisoning de raíz: generar la descripción de una herramienta a partir de su implementación en lugar de confiar en el texto del autor, neutralizando el envenenamiento implícito que los detectores no ven.
Más nuevo no siempre es más seguro: alineación de seguridad no monótona entre generaciones
Un artículo de mayo de 2026 que somete a red teaming cuatro generaciones de Gemma halló que el modelo intermedio era mucho más fácil de jailbreakear que su predecesor y su sucesor: la seguridad no mejora en línea recta.
RTK (CVE-2026-45792): filtros no confiables ocultan backdoors a la revisión por IA
Pillar Security divulgó el 20 de mayo de 2026 un fallo en RTK, un filtro de optimización de tokens para Claude Code: un .rtk/filters.toml provisto por el repositorio podía eliminar en silencio un backdoor de la salida de comandos antes de que el modelo la viera. El objetivo es la percepción del agente, no su ejecución.
Blanqueo de causalidad: cuando una llamada de herramienta denegada igual filtra datos
Un artículo de abril de 2026 muestra que denegar la llamada de herramienta de un agente no termina el ataque: la propia denegación es un canal de información. El rastreo de taint plano no lo ve.
DeepMind y socios abren un fondo de 10 M$ para la seguridad multiagente
El 11 de junio de 2026, Google DeepMind, Schmidt Sciences, la Cooperative AI Foundation y ARIA abrieron una convocatoria de 10 M$ para fundar un campo de investigación sobre la seguridad de millones de agentes de IA que interactúan.
La Recuse Signal: un robots.txt para agentes que poseen credenciales reales
Un artículo de junio de 2026 propone una señal de «denegación» in-band — emitida por un banner SSH o un NOTICE de PostgreSQL — que pide cortésmente a un agente autónomo que se retire. En un piloto indujo un 100 % de recusación, pero un encuadre de autorización hizo volver al modelo más capaz.
CodeSpear: cuando la decodificación con restricción gramatical se convierte en superficie de jailbreak
Un artículo de arXiv del 10 de junio de 2026 muestra que la función de fiabilidad que obliga a que la salida de código de un LLM sea sintácticamente válida puede convertirse en un jailbreak. Aplicar una gramática de código inocua elude los rechazos; la defensa CodeShield de los autores responde con código señuelo.
El trilema de la defensa: por qué los wrappers anti-inyección no pueden ser completos
Una prueba verificada en Lean 4 (abril de 2026) demuestra que ningún wrapper de entrada continuo que preserve la utilidad puede bloquear toda inyección de prompts. Continuidad, utilidad y completitud no coexisten.
Soberanía mnémica: asegurar todo el ciclo de vida de memoria de los agentes
Un estudio de abril de 2026 replantea la seguridad de la memoria de los agentes LLM como un ciclo de vida de seis fases y muestra que el campo ignora el olvido, la confidencialidad y la deriva no adversarial.
La inyección sigue filtrando a Copilot: dos nuevos CVE de junio de 2026
El Patch Tuesday del 9 de junio de 2026 trajo CVE-2026-42824 y CVE-2026-47644 — dos fallos de divulgación de información de clase inyección en la superficie de Copilot, continuando el linaje de exfiltración iniciado con EchoLeak.
ChromaToast: una RCE pre-autenticación en la base vectorial ChromaDB
La divulgación de HiddenLayer del 18 de mayo de 2026 (CVE-2026-45829, CVSS 10.0) muestra que el servidor Python de ChromaDB carga el modelo HuggingFace del atacante y ejecuta su código antes de comprobar la autenticación.
DACSI: cuando los documentos recuperados falsifican las señales de control del sistema
Un artículo del 8 de junio de 2026 da nombre a un modo de fallo silencioso del RAG: texto no confiable que suplanta señales de metadatos, procedencia y política. Sin «ignore previous instructions» — la lección: una etiqueta escrita en un documento es dato, no política.
AgentDyn: por qué las defensas anti-inyección que brillan en benchmarks fallan en el mundo real
AgentDyn, un benchmark de ICML de febrero de 2026, prueba diez defensas anti-inyección de primer nivel en tareas de agente dinámicas y abiertas. Casi todas son inseguras o sobredefienden hasta volverse inservibles.
StakeBench: ¿quién paga realmente cuando inyectan a un agente web?
Un benchmark centrado en las partes afectadas (NTU, IBM Research, UIUC) muestra que los agentes web fallan en todos los objetivos de inyección probados — y que el daño suele recaer en terceros, no en el usuario.
Gusano Hades: configuración de agentes de código envenenada que se ejecuta al abrir el repo
El gusano Hades hace commit de archivos de configuración para Claude Code, Gemini, Cursor y VS Code que se ejecutan al iniciar la sesión o abrir la carpeta — convirtiendo un repo clonado en un ladrón de credenciales, sin ningún paso de instalación.
La paradoja de la inyección: cuando una inyección de prompt se vuelve en contra y borra una marca en RAG
Un preprint de arXiv del 8 de junio de 2026 muestra que una inyección de prompt en un documento recuperado puede volverse en contra en modelos Claude alineados, hundiendo una marca del 54 % al 0 % de recomendación — y abriendo un contraataque contra competidores.
Descomposición de contexto fracturado: jailbreaks por brechas de procedencia
Un artículo de arXiv del 8 de junio de 2026 formaliza la «brecha de procedencia» en agentes con herramientas: conducta dañina ensamblada con acciones inocuas repartidas en el tiempo, hasta +28,3 puntos de éxito.
Modelo de madurez agéntica de OWASP: no opere en las celdas rojas
El informe State of Agentic AI de OWASP (junio de 2026) añade un modelo de madurez de adopción: una matriz de dos ejes donde la autonomía de los agentes supera a la gobernanza y deja 'celdas rojas' sin supervisión.
SABER: los agentes de código fallan en seguridad operacional aunque rechacen los prompts maliciosos
Un benchmark del 31 de mayo de 2026 evalúa a los agentes de código LLM por el estado final de un repositorio real, no por el rechazo del prompt. Incluso el mejor modelo deja una violación dañina en más de la mitad de las ejecuciones.
Bypass de allowlist en Cursor: los built-ins del shell envenenan el entorno
CVE-2026-22708 permite que una inyección de prompt use built-ins de shell de confianza como export y typeset para envenenar variables de entorno en Cursor, convirtiendo un comando git o python aprobado en ejecución remota de código. Corregido en 2.3.
La supervisión tiene una capacidad: cuando más aprobaciones hacen al agente menos seguro
Un artículo de arXiv del 8 de junio de 2026 modela al revisor humano detrás de la puerta de aprobación de un agente como un recurso finito que se fatiga, y muestra que escalar más acciones puede reducir la seguridad real y abrir un ataque por saturación.
HPAA: tipografía que el humano lee pero los LLM de moderación pasan por alto
Un artículo del 8 de junio de 2026 presenta los ataques adversarios perceptibles por humanos: texto dañino que sigue siendo evidente para un lector, pero que evade la moderación por LLM mediante manipulación tipográfica.
Plugins de chatbot web: cómo los widgets inseguros amplifican la inyección de prompts
Un estudio de IEEE S&P 2026 sobre 17 plugins de chatbot en más de 10.000 sitios revela historiales de conversación falsificables (inyecciones 3 a 8 veces más fuertes) y herramientas de scraping que mezclan contenido fiable y no fiable.
AuditBench: los LLM que investigan ataques son máquinas de falsos positivos
Un benchmark de junio de 2026 evalúa cinco LLM de frontera en investigaciones reales sobre logs de auditoría. Veredicto: modelos demasiado suspicaces, muchos falsos positivos — y los modelos pequeños igualan a los grandes.
CASA: control de acceso basado en tareas que contrasta cada llamada a una herramienta con la intención real del usuario
Un artículo de arXiv del 4 de mayo de 2026 propone Continuous Agent Semantic Authorization: una capa zero-trust que extrae la tarea del usuario de una conversación multironda y deniega las llamadas a herramientas que no encajan.
LiteLLM CVE-2026-42271: los endpoints de prueba MCP encadenan hacia RCE no autenticada
Divulgada en abril como una inyección de comandos autenticada, la función de vista previa MCP de LiteLLM se convierte en RCE no autenticada al encadenarla con el bypass BadHost de Starlette — añadida al KEV de CISA el 8 de junio de 2026.
Ataques al flujo de control por memoria: cuando la memoria dirige las herramientas de un agente
Un artículo de marzo de 2026 muestra que la memoria envenenada de un agente no solo corrompe el contenido: secuestra el flujo de control de la selección de herramientas, forzando herramientas no deseadas y pasos omitidos en más del 90 % de los ensayos, entre tareas y mucho después de la inyección.
Inyección por config de Transformers: una RCE silenciosa que esquiva trust_remote_code
CVE-2026-4372, divulgada el 4 de junio de 2026, permite que un único campo de config.json ejecute código del atacante en una simple llamada from_pretrained() — esquivando trust_remote_code=False en Hugging Face Transformers.
ADR: detección y respuesta para agentes MCP, probado a escala de Uber
Un artículo de mayo de 2026 de Uber describe un sistema tipo EDR para agentes MCP: telemetría causal completa, detección en dos niveles y red teaming offline, desplegado en más de 7.200 hosts durante diez meses.
Olvidado pero recuperable: por qué el desaprendizaje de los LLM sigue filtrando
Varios trabajos de 2025-2026 muestran que el conocimiento «desaprendido» de un LLM sigue siendo recuperable — mediante cuantización, prompts adversarios y ahora trazas de razonamiento. Tratar el desaprendizaje como un borrado es un error.
ePCA: sustituir las barreras semánticas de agentes por verificación formal
Un artículo de mayo de 2026 propone ePCA, una barrera que compila cada acción del agente en lógica de primer orden y ejecuta una verificación SMT antes de actuar, bloqueando los pasos peligrosos como bloqueos lógicos.
Servidores MCP remotos: 40 % sin autenticación, OAuth roto en el resto
Un estudio de arXiv de mayo de 2026 escaneó 7973 servidores MCP remotos: el 40,55 % expone sus herramientas sin autenticación alguna, y los 119 servidores OAuth probados presentaban al menos un fallo — 9 CVE asignadas.
Por qué es difícil evaluar a los agentes de seguridad
Un position paper publicado el 21 de mayo de 2026 sostiene que las tablas de clasificación usadas para puntuar a los agentes de seguridad están sutilmente rotas: el razonamiento adversario que se quiere medir también puede romper el propio benchmark. Tres modos de fallo, y cómo evaluar con honestidad.
AgentTrust: revisar las llamadas a herramientas de un agente antes de ejecutarlas
Un preprint del 6 de mayo de 2026 presenta AgentTrust, una capa de ejecución que inspecciona cada llamada a herramienta antes de que se ejecute y devuelve permitir / advertir / bloquear / revisar, incluso sobre cargas de shell ofuscadas.
Detectar la extracción de modelos observando la ventana de tráfico, no las consultas aisladas
Un artículo de junio de 2026 muestra que una simple prueba de distribución (MMD sobre embeddings de consultas, calibrada solo con tráfico legítimo) detecta campañas de extracción ocultas en tráfico de API mixto — 0,3 % de falsos positivos, 100 % en tráfico puramente atacante.
La seguridad de los agentes es un problema de sistema: tratar al modelo como no confiable
Un position paper de mayo de 2026 (Google, UCSD, UW–Madison) sostiene que la seguridad de los agentes debe salir del modelo y trasladarse al sistema: tratar al LLM como un componente no confiable e imponer las invariantes a su alrededor.
Envenenamiento secuencial: repartir una puerta trasera entre las etapas del post-entrenamiento
Un artículo del 3 de junio de 2026 muestra que un veneno repartido entre datos de SFT y de preferencias — insignificante en cada etapa por separado — se combina en una puerta trasera funcional. Las auditorías por etapa crean una «ilusión del atacante único».
Cinco ataques a x402: cuando los agentes de IA pagan, las costuras entre capas gotean
Un artículo del 12 de mayo de 2026 rompe formalmente x402, el protocolo de pago agéntico basado en HTTP 402. Cinco ataques sobre liquidación, repetición, capa web y descubrimiento — un pago repetido produjo 248 concesiones en un endpoint en producción.
Cómo la IA agéntica comprime el ciclo de vida del ataque
Un artículo de arXiv de mayo de 2026 modela cómo la IA agéntica reduce el coste de cada etapa de un ataque —de la reconnaissance a la post-explotación— comprimiendo la kill chain y redefiniendo las prioridades defensivas.
Por qué los desarrolladores independientes de agentes de IA pasan por alto los riesgos de seguridad
Un estudio de arXiv de junio de 2026 sobre desarrolladores independientes de agentes de IA revela un punto ciego centrado en el usuario: se enfocan en el contenido dañino y descuidan la inyección de prompts, la exfiltración de datos y los flujos transfronterizos.
SlotGCG: la posición del token adverso, no solo su contenido, determina el jailbreak
Un artículo de junio de 2026 muestra que los jailbreaks tipo GCG ganan ~14 % de eficacia cuando los tokens adversos se sitúan en posiciones correlacionadas con la atención, y conservan un 42 % de éxito frente al filtrado de entrada.
La herramienta shell de MS-Agent: una denylist regex convierte la inyección de prompt en RCE
CVE-2026-2256 permite que contenido malicioso induzca a MS-Agent (ModelScope) a ejecutar comandos del sistema. La causa raíz es un antipatrón conocido: proteger una herramienta shell con una denylist regex en lugar de una allowlist.
OWASP ASI02: cuando un agente vuelve sus propias herramientas contra usted
Tool Misuse & Exploitation es el riesgo n.º 2 del Top 10 de OWASP para Aplicaciones Agénticas 2026. El peligro no es que un agente gane nuevas herramientas, sino que abuse de las que ya tiene: sobreprivilegio, descriptores envenenados, encadenamiento inseguro.
VR de firmware manos libres: un agente LLM realiza ingeniería inversa de un intercomunicador OT de extremo a extremo
El 2 de junio de 2026, Claroty Team82 ejecutó Claude Opus 4.6 con un servidor MCP de Ghidra contra el firmware de un intercomunicador Zenitel y volvió a encontrar un conjunto de CVE conocidas en menos de diez minutos — un anticipo de la investigación de vulnerabilidades de firmware convertida en mercancía.
Más allá de la «seguridad superficial»: la inyección a mitad de secuencia sigue desviando a los LLM alineados
Un artículo de arXiv del 3 de junio de 2026 muestra que la alineación de seguridad puede redirigirse no solo en los primeros tokens, sino en cualquier paso de la generación — y que las direcciones de rechazo en los estados ocultos no predicen la robustez.
Need to Know: reescritura de consultas por integridad contextual
Un artículo de arXiv del 2 de junio de 2026 replantea la reescritura de consultas respetuosa con la privacidad como un problema de integridad contextual: enviar un dato al LLM en la nube solo si la tarea lo necesita, no porque se haya reconocido un tipo de PII.
Membrane: una memoria de seguridad contrastiva que adapta las barreras sin reentrenar
Un artículo de arXiv del 4 de junio de 2026 propone Membrane, una barrera autoevolutiva que asocia cada ataque bloqueado con una petición benigna casi idéntica, reduciendo el rechazo excesivo al 7-14 % y liderando el F1 en seis jailbreaks.
Lockdown Mode de OpenAI: cortar la vía de exfiltración del prompt injection
El 6 de junio de 2026 OpenAI amplió Lockdown Mode a las cuentas personales y Business de autoservicio de ChatGPT: un ajuste determinista que desactiva los canales de salida usados para exfiltrar datos mediante prompt injection.
Decision Hijacking: inyectar el LLM que ordena tus resultados de búsqueda
Una serie de investigaciones de 2025-2026 demuestra que cuando un LLM reordena candidatos de búsqueda o de RAG, unas pocas líneas inyectadas en un solo documento bastan para colocarlo primero — la calidad del ranking se desploma más de 60 puntos NDCG, y los modelos más potentes son los más vulnerables.
THRD: una defensa temporal sin reentrenamiento contra jailbreaks multironda
Un artículo de junio de 2026 sostiene que un jailbreak multironda debe evaluarse sobre toda la conversación, no turno a turno. THRD agrega el riesgo en el tiempo y reduce la tasa de éxito de los ataques al 0,2–4 %, sin reentrenamiento.
MetaBackdoor: un disparador de puerta trasera basado en la longitud, invisible en la entrada
Un artículo de mayo de 2026 de Microsoft y el Institute of Science Tokyo implanta una puerta trasera cuyo disparador es la longitud de la entrada, no su texto. El prompt parece limpio, los filtros de contenido no ven nada y bastan 90 ejemplos envenenados.
El endpoint de build público de Langflow: RCE sin autenticar, armado en 20 horas
CVE-2026-33017 convierte el endpoint de build público de Langflow en ejecución remota de código sin autenticación. Divulgada el 17 de marzo de 2026, fue explotada in the wild en 20 horas, antes de que existiera ningún PoC público.
Dos trampas metodológicas que inflan las puntuaciones de los detectores de inyección de prompts
Un preprint de arXiv del 1 de junio de 2026 muestra que la mayoría de los benchmarks de detectores de inyección de prompts y jailbreak se apoyan en el ajuste de umbral por conjunto de datos y en puntos de operación no divulgados — dos hábitos que inflan discretamente la precisión anunciada.
AgentVisor: un patrón tipo hipervisor de SO que audita cada llamada a herramienta
Un artículo de arXiv del 27 de abril de 2026 toma la idea del hipervisor de SO para defender agentes LLM con herramientas: un «visor» de confianza audita cada llamada y es arquitectónicamente ciego al contenido no confiable.
Taxonomía v2.0 de modos de fallo agénticos de Microsoft: la evasión zero-click del humano en el bucle
La taxonomía v2.0 del AI Red Team de Microsoft (4 de junio de 2026) añade siete modos de fallo agénticos y señala la evasión del humano en el bucle como la más explotada — incluidas cadenas zero-click a partir de una sola entrada externa.
Back-Reveal: exfiltración de datos mediante las propias llamadas a herramientas de un agente comprometido
Un agente ajustado lleva un disparador oculto. Ante una señal inocua, lee tu memoria de sesión y la envía disfrazada de simple llamada de búsqueda — sin inyección, sin herramienta maliciosa. Artículo fechado el 7 de abril de 2026.
VIPER-MCP: 67 CVE por fallos de tipo taint en 40 000 servidores MCP
Un artículo de arXiv del 20 de mayo de 2026 auditó 39 884 repositorios de servidores MCP de código abierto, confirmó 106 zero-days de extremo a extremo y obtuvo 67 identificadores CVE. La historia es el patrón: entrada de agente no confiable que alcanza sinks de shell, red y archivos.
Optimus: puntuar jailbreaks más allá del binario revela un régimen sigiloso óptimo
Un paper de arXiv del 9 de mayo de 2026 sostiene que la tasa de éxito binaria oculta los jailbreaks más peligrosos. Su métrica Optimus puntúa los prompts por similitud y nocividad, y expone una banda «sigilosa óptima» donde el ASR cae a cero.
Ningún laboratorio mide el prompt injection igual
Una comparación del 1 de junio de 2026 de las divulgaciones de prompt injection de Anthropic, OpenAI, Google y Meta revela que no comparten métrica, superficie ni definición de éxito — sus cifras no son comparables.
AgentRedBench: la inyección indirecta en agentes SaaS es un fallo de autorización
AgentRedBench (junio de 2026) somete a red teaming a agentes LLM que leen herramientas SaaS como Gmail y Jira. Sin protección, la tasa de éxito de los ataques va del 32 % al 81 % en ocho modelos de frontera, hasta que un clasificador de respuestas de herramientas la reduce.
Gusanos de IA adaptativos: cuando el malware ejecuta su propio LLM local
Un paper de la Universidad de Toronto (junio de 2026) demuestra un gusano que ejecuta LLM open-weight en las máquinas que compromete, adapta su exploit a cada objetivo y arma advisories publicados tras la fecha de corte del modelo.
CVE-2026-45497: una inyección de comandos convierte a Microsoft 365 Copilot en una superficie de RCE
El 4 de junio de 2026 el MSRC publicó CVE-2026-45497, una inyección de comandos en Microsoft 365 Copilot calificada como ejecución remota de código, con un cambio de alcance que cruza la frontera del servicio. Corregida del lado del servidor.
trust_remote_code=False no es una frontera: la RCE recurrente al cargar modelos en vLLM
CVE-2026-27893 (divulgada el 27 de marzo de 2026) es el tercer bypass de trust_remote_code en vLLM. Dos archivos de modelo fijan trust_remote_code=True, anulando en silencio la opción del operador y habilitando RCE desde un repositorio de modelo malicioso.
Cuando un argumento de herramienta MCP se convierte en un intent de Android: los sinks de mobile-mcp
CVE-2026-35394 permite que una URL controlada por el modelo dispare intents de Android arbitrarios mediante la herramienta mobile_open_url de mobile-mcp. Junto a una CVE gemela de path traversal, revela un patrón: argumentos de herramientas MCP que llegan a sinks sin validación.
El agente que escribe sus propios registros: por qué no se puede confiar en los audit trails autoinformados
Si un agente comprometido genera su propio registro de actividad, puede omitir, alterar o fabricar lo que hizo. Tres trabajos de junio de 2026 — Notarized Agents (arXiv), un borrador del IETF sobre audit trail de agentes y SCITT — convergen en la misma solución: mover la frontera de confianza fuera del agente.
Los archivos GGUF son entrada no confiable: las RCE recurrentes del parser de llama.cpp
CVE-2026-33298 (marzo de 2026) y una divulgación en oss-sec del 15 de mayo de 2026 muestran que el parser GGUF de llama.cpp encadena corrupciones de heap por desbordamiento de enteros: cargar un modelo manipulado puede bastar para ejecutar código.
MPBench: una taxonomía sistemática del envenenamiento de memoria en agentes LLM
Un estudio de arXiv del 3 de junio de 2026 mapea cuatro canales de escritura de memoria, nueve debilidades estructurales y seis clases de ataque — y demuestra que las defensas anti-inyección no cubren el envenenamiento de memoria.
Cuando fallan las defensas por embedding en sistemas multiagente LLM
Un artículo de arXiv del 1 de mayo de 2026 demuestra que los detectores que descartan un agente malicioso por el embedding de sus mensajes se desploman ante un texto vuelto casi benigno — y propone las señales de confianza por token como reemplazo más robusto.
Inyección de AGENTS.md: una dependencia envenenada puede reescribir en silencio las órdenes de tu agente de código
Un informe del NVIDIA AI Red Team del 20 de abril de 2026 muestra que una dependencia maliciosa puede dejar un AGENTS.md falsificado durante el build, anular la instrucción del desarrollador y pedir a OpenAI Codex que oculte el cambio en la pull request.
Contagio social: los agentes LLM filtran datos privados en entornos multiagente
Un estudio de mayo de 2026 que simula miles de agentes LLM muestra que la filtración de datos es socialmente contagiosa: un agente filtra ~8x más tras ver hacerlo a un par, y las instrucciones de privacidad reducen pero no eliminan el efecto.
Gusanos autopropagables de agentes y la defensa por reentrada temporal
Un artículo de mayo de 2026 formaliza cómo el estado persistente de un agente permite que una carga de inyección se reescriba en el contexto del LLM, se propague entre agentes sin clics, y propone RTW-A, una defensa probada por un teorema de no propagación.
PISmith: el red teaming con RL adaptativo sigue rompiendo las defensas anti-inyección
Un artículo de marzo de 2026 entrena un modelo atacante con aprendizaje por refuerzo para poner a prueba las defensas anti-inyección en caja negra — y 8 defensas de última generación caen, incluso en AgentDojo e InjecAgent.
El broker ZMQ de SGLang: RCE no autenticada por deserialización de pickle
Tres CVE divulgadas el 12 de marzo de 2026 convierten las llamadas pickle.loads() de SGLang en ejecución remota de código sin autenticación. El parche llegó en la v0.5.10, pero la verdadera lección es que pickle sobre un socket de red es RCE por diseño.
Tool poisoning en 7 clientes MCP: una comparativa de postura de seguridad
Un estudio empírico de marzo de 2026 prueba cuatro ataques de tool poisoning contra Claude Desktop, Claude Code, Cursor, Cline, Continue, Gemini CLI y Langflow — y concluye que la mayor parte de la protección proviene del modelo, no del cliente.
Envenenamiento de descripción: el canal de agente que tus benchmarks no prueban
Una demo en AWS Bedrock AgentCore de mayo de 2026 y un paper de arXiv de junio de 2026 coinciden en el mismo punto ciego: las descripciones de herramientas, leídas antes de cada llamada, son un canal de inyección que los controles de infraestructura y los benchmarks de un solo número pasan por alto.
La recuperación híbrida BM25 + vectores redujo el envenenamiento RAG del 38 % al 0 %
Un preprint de arXiv del 10 de marzo de 2026 muestra que añadir BM25 disperso a la recuperación densa bloquea toda una clase de envenenamiento de corpus RAG optimizado por gradiente, sin tocar el LLM.
AgentShield: detectar agentes comprometidos con honeytokens y herramientas señuelo
Un artículo de mayo de 2026 aplica la ingeniería del engaño a los agentes LLM con herramientas: herramientas falsas, credenciales falsas y listas blancas de parámetros con las que tropieza un agente secuestrado. Reporta una detección del 90,7 al 100 % de los ataques exitosos, sin falsas alarmas.
OWASP Agent Memory Guard: una capa en tiempo de ejecución contra el envenenamiento de memoria de agentes
Cubierto por Help Net Security el 1 de junio de 2026, Agent Memory Guard es la primera implementación de referencia de OWASP para ASI06: una capa lista para usar que filtra cada lectura y escritura de la memoria de un agente según una política YAML.
Detectar la exfiltración de credenciales en agentes LLM antes del token de salida
Publicado el 2 de junio de 2026, un artículo de arXiv detecta las fugas de credenciales de un agente antes de cualquier token de salida, combinando sondas de activación, honeytokens calibrados y contabilidad de fuga multironda.
Actores maliciosos de IA mapeados en MITRE ATT&CK: el puntaje ARiES y lo que rompe
El informe de Anthropic del 3 de junio de 2026 mapea un año de ciberataques asistidos por IA en MITRE ATT&CK. La conclusión para los defensores: la sofisticación, el número de técnicas y la interfaz ya no predicen el riesgo — la orquestación sí.
AIRQ evalúa 100 agentes de IA en producción: el 98 % acumula la tríada letal
El AI Risk Quadrant de Adversa AI (junio de 2026) puntúa 100 agentes comerciales por superficie de ataque, radio de impacto y defensas. Solo el 11 % está bien defendido; la ejecución de herramientas explica por sí sola el 76 % del radio de impacto.
Orden ejecutiva de EE. UU. sobre seguridad de la IA: central de vulnerabilidades y revisión de modelos de frontera
Firmada el 2 de junio de 2026, la orden ejecutiva de EE. UU. sobre innovación y seguridad de la IA crea una central federal de vulnerabilidades de IA y una revisión voluntaria de 30 días previa a la publicación de los «modelos de frontera cubiertos».
CVE-2026-30615: una inyección de prompt reescribe la config MCP de Windsurf en RCE
El aviso de OX Security del 15 de abril de 2026 muestra cómo contenido controlado por el atacante puede hacer que el IDE Windsurf registre un servidor MCP STDIO malicioso y ejecute comandos — sin un solo clic. La clase abarca varios agentes de código, pero el CVE es para Windsurf.
La system card de Opus 4.8 cuantifica la inyección de prompts en el agente de navegador: 31,5 %
La system card de Claude Opus 4.8 (28 de mayo de 2026) reporta una tasa de secuestro pre-salvaguardas del 31,5 % para su agente de navegador — la única métrica de inyección de prompts publicada por un laboratorio frontera esta primavera.
Agent Threat Rules: un «Sigma para agentes de IA» — y lo que confiesan sus cifras de recall
ATR ofrece reglas de detección YAML abiertas para ataques a agentes, ya en producción en Microsoft, Cisco y Gen Digital. Sus propios benchmarks muestran por qué la detección por regex es una capa, no un perímetro.
ChatInject: falsificar las etiquetas de rol del chat template para eludir la jerarquía de instrucciones
Un artículo de ICLR 2026 muestra que envolver una carga de inyección indirecta en los tokens del chat template de un modelo falsifica un rol prioritario y eleva la tasa de éxito del 5 % al 32 % en AgentDojo, y hasta el 52 % en multironda.
ASPI: pedir aclaración amplía la superficie de inyección
Un benchmark de arXiv del 17 de mayo de 2026 muestra que cuando un agente se detiene a pedir una aclaración al usuario, el éxito de la inyección sube de menos del 2 % a más del 34 % en o3 y Gemini-3-Flash.
SnapGuard: detectar la inyección en lo que el agente ve, no en lo que parsea
Un artículo de abril de 2026 propone un detector ligero para agentes web basados en capturas de pantalla, donde las defensas textuales son ciegas. Lee los píxeles renderizados — estabilidad de gradientes y texto con polaridad invertida — en 1,81 s por página.
CyBiasBench: los agentes LLM ofensivos repiten siempre los mismos ataques
Un benchmark de mayo de 2026 registró 630 sesiones de ataque y constató que los agentes LLM en escenarios cíber ofensivos se concentran en un subconjunto reducido de familias de ataque, sin importar el prompt. Es el sesgo, no la habilidad, lo que decide qué intentan.
Propagación de autorización: el hueco de seguridad de los agentes que la defensa anti-inyección no cerrará
Un artículo de Krti Tallam del 6 de mayo de 2026 describe un problema propio de los sistemas multiagente —la propagación de autorización— que persiste incluso con una defensa perfecta contra la inyección: delegación transitiva, inferencia por agregación, validez temporal.
Reencuadre del objetivo: el único elemento del prompt que lleva a los agentes LLM a explotar un fallo plantado
Un estudio de arXiv del 6 de abril de 2026 realizó ~10.000 ensayos en siete modelos. La mayoría de las tácticas de «manipulación» no produjeron nada — solo el reencuadre del objetivo, como «estás resolviendo un acertijo», llevó a los agentes a explotar el fallo.
CAESAR: agentes LLM coordinados superan el techo de razonamiento de un solo modelo
Un artículo de arXiv del 9 de mayo de 2026 muestra que dividir a un atacante LLM en cinco roles tipados supera a un agente único en 25 retos CTF y cuatro modelos — la ganancia viene de la estructura de coordinación, no de la capacidad bruta.
ClawTrojan: la inyección almacenada se convierte en una puerta trasera persistente del agente
Un paper de arXiv del 29 de mayo de 2026 muestra que una inyección oculta en un archivo puede ser almacenada por un agente local y ejecutada después — 95,5 % de éxito frente a casi cero de la inyección de un solo turno.
DataShield: cuando un fine-tuning inocuo erosiona la seguridad de un modelo
Un artículo de arXiv del 29 de mayo de 2026 muestra que ajustar un LLM alineado con datos inofensivos degrada igualmente su seguridad, y propone DataShield para detectar las muestras responsables antes del entrenamiento.
Langroid SQLChatAgent: de la inyección prompt-a-SQL a la RCE (CVE-2026-25879)
Divulgada el 1 de junio de 2026, la CVE-2026-25879 (CVSS 9.8) permite que un agente SQL víctima de inyección de prompt ejecute primitivas como COPY FROM PROGRAM, convirtiendo un chatbot en ejecución de código en el host de la base de datos.
Bastaba con pedirlo: el asistente de IA de Meta y los secuestros de Instagram
El fin de semana del 30–31 de mayo de 2026, los atacantes secuestraron cuentas de Instagram de alto perfil simplemente pidiéndole al bot de soporte de IA de Meta que vinculara un nuevo correo. Sin inyección de prompt: solo agencia excesiva.
Agentes frágiles: la inyección indirecta sobrevive a las llamadas a herramientas multipaso
Un artículo del 4 de abril de 2026 prueba 6 defensas frente a 4 vectores de inyección indirecta en 9 modelos, en agentes multipaso — las inyecciones avanzadas eluden casi todas, y algunas mitigaciones superficiales resultan contraproducentes.
Deje de obsesionarse con el prompt: secuestrar el razonamiento y la memoria de un agente
Un artículo de abril de 2026, JailAgent, lleva a un agente a llamadas de herramienta maliciosas sin tocar el prompt del usuario, perturbando su traza de razonamiento y su recuperación de memoria. El prompt nunca fue toda la superficie de ataque.
Trojan Hippo: cargas latentes en la memoria de un agente que exfiltran tus datos
Un paper de arXiv del 3 de mayo de 2026 muestra que un solo correo manipulado basta para implantar en la memoria de un agente una carga latente que solo se activa cuando hablas de finanzas o salud, y luego la exfiltra — hasta un 100 % de éxito.
Deje de evaluar las defensas anti-jailbreak solo por la tasa de éxito
Un artículo de IEEE S&P de mayo de 2026 sostiene que la tasa de éxito de ataque —la métrica por defecto del campo— oculta cómo se comportan realmente las defensas anti-jailbreak. Su Security Cube las evalúa en varios ejes a la vez.
LASM: un mapa de 7 capas de los puntos ciegos en la defensa de agentes
Un estudio de 58 páginas revisado el 6 de mayo de 2026 reorganiza la seguridad de los agentes de IA por capa y por escala temporal sobre 116 papers. El mapa revela dónde hay ataques documentados pero ninguna defensa ni benchmark todavía.
Sampling de MCP: cómo un servidor malicioso abusa del canal LLM inverso
La función de sampling de MCP permite que un servidor pida una compleción al modelo del cliente. Unit 42 mostró (dic. 2025) cómo un servidor malicioso la convierte en llamadas a herramientas encubiertas, secuestro de conversación y robo de cómputo.
IPI Arena: 272 000 ataques y ningún modelo de agente a salvo
La Indirect Prompt Injection Arena de Gray Swan, evaluada con UK AISI y US CAISI, lanzó más de 272 000 ataques contra 13 modelos de frontera. Todos fueron secuestrados — y una única plantilla universal venció a nueve.
TrustFall: los ajustes MCP del proyecto convierten el clic de confianza en RCE
TrustFall (Adversa AI, 7 de mayo de 2026) demuestra que cuatro CLI de codificación agéntica arrancan automáticamente los servidores MCP definidos por el proyecto en cuanto el desarrollador acepta el aviso de confianza de la carpeta — una pulsación de tecla en el equipo, cero clics en CI.
LightLLM CVE-2026-26220: pickle en un WebSocket que el servidor obliga a exponer en red
CVE-2026-26220 (divulgada el 15 de febrero de 2026) coloca pickle.loads() en dos endpoints WebSocket sin autenticar del modo prefill-decode de LightLLM — y el servidor se niega a enlazar a localhost, así que la superficie es siempre remota.
Separadores dinámicos: reforzar Polymorphic Prompt Assembling frente a la inyección
Un artículo de arXiv del 28 de mayo de 2026 corrige un fallo de «radio de impacto» en Polymorphic Prompt Assembling generando un separador SHA-256 único por petición, bajando la tasa de éxito de un payload de 0,88 a 0,38.
Silent Egress: la inyección implícita filtra datos a través de las vistas previas de URL
Un estudio de eBay (arXiv, 25 de febrero de 2026) demuestra que un agente que previsualiza URL de forma automática puede ser inducido a exfiltrar su contexto de ejecución mediante llamadas a herramientas — P(egress)≈0,89, y el 95 % de las fugas dejan la respuesta visible totalmente inocua.
El agente al volante: detectar la post-explotación dirigida por un LLM
El 10 de mayo de 2026, Sysdig captó su primera intrusión en la que un agente LLM dirigía la post-explotación en tiempo real — de CVE-2026-39987 en marimo a un volcado completo de PostgreSQL en menos de una hora. La pista forense es la forma de los comandos.
Flowise CVE-2026-40933: importar un chatflow compartido basta para una RCE
El análisis de Obsidian Security del 28 de mayo de 2026 muestra cómo el nodo Custom MCP de Flowise convierte una configuración MCP stdio en ejecución de código en el servidor — y cómo el simple hecho de importar un chatflow compartido puede activarla, sin guardar ni ejecutar.
Inyección de prompts en la práctica: ataques ocultos en el cribado de CV con LLM
Un estudio de USENIX Security 2026 sobre 196.682 CV reales halló que cerca del 1 % contiene inyecciones de prompt ocultas, y que más del 90 % son 'inyecciones de datos' invisibles, no las instrucciones explícitas que buscan los detectores actuales.
Red teaming agéntico: un operador, 674 ataques en tres horas
Un paper de mayo de 2026 de Dreadnode envuelve el kit de red team de IA en un agente que elige los ataques, los ejecuta y puntúa resultados de forma autónoma — semanas comprimidas en horas. El tema de fondo: qué supone para su programa de evaluación.
CrewAI: un repliegue silencioso del sandbox convierte la inyección de prompts en RCE (VU#221883)
Cuatro fallos de CrewAI permiten encadenar inyección de prompts, RCE, SSRF y lectura de archivos mediante un Code Interpreter que abandona Docker en silencio. La actualización del CERT/CC del 20 de mayo de 2026 confirma la corrección completa.
El triángulo de compromisos: defensas contra inyección de prompts en tutores LLM
Un benchmark de mayo de 2026 sobre defensas anti-inyección para tutores educativos LLM cuantifica una verdad incómoda: ningún guardarraíl gana a la vez en robustez, usabilidad y latencia.
Los jailbreaks dejan rastro: detectarlos en las activaciones internas del LLM
Un artículo de febrero de 2026 y su continuación de marzo de 2026 muestran que un prompt de jailbreak graba una firma distintiva en las activaciones ocultas del modelo, lo que permite detectarlo en inferencia sin fine-tuning ni un modelo juez auxiliar.
Ataques de agotamiento de tokens: denegación de servicio económica vía cadenas de herramientas de agentes
Dos artículos de 2026 muestran que una herramienta o skill maliciosa puede arrastrar a un agente LLM a largos bucles de llamadas a herramientas, multiplicando el coste en tokens de 6 a 658× mientras devuelve la respuesta correcta — una variante sigilosa del Unbounded Consumption de OWASP.
Atribución causal: una defensa emergente contra la inyección indirecta
Un grupo de papers de inicios de 2026 — CausalArmor y AttriGuard — defiende a los agentes con herramientas preguntando qué acciones están causadas por contenido no confiable y no por el usuario. Repaso de la defensa por atribución causal.
LITMUS: cuando el agente dice no pero el archivo ya está borrado
Un benchmark del 11 de mayo de 2026 mide los jailbreaks de comportamiento de agentes LLM en entornos de SO reales, y revela que incluso Claude Sonnet 4.6 ejecuta el 40,6 % de las operaciones de alto riesgo, a veces mientras las rechaza verbalmente.
Robo de prompts por tiempo: canales laterales de caché de prefijos en LLM multiinquilino
La caché de prefijos compartida acelera las API de LLM — y filtra prompts. Cronometrando el primer token, un atacante reconstruye el prompt de otro inquilino. Un artículo de marzo de 2026 lo defiende sin sacrificar rendimiento.
AgentSecBench: en un agente LLM, el flujo de datos no es autoridad
Publicado el 25 de mayo de 2026, AgentSecBench formaliza la seguridad de los agentes como no interferencia y prueba seis clases de defensa. La conclusión: el texto del prompt solo describe un límite; solo la procedencia, la restricción de capacidades y la validación de salida lo imponen.
Zero-days escritos por IA: cómo el GTIG identificó el primer exploit creado por un modelo
El 11 de mayo de 2026, el GTIG de Google reveló el primer zero-day que cree desarrollado con IA: un script de bypass de 2FA delatado por una puntuación CVSS alucinada y docstrings de manual. Así se leen esas señales.
SymJack: una copia de archivo aprobada se convierte en RCE en seis agentes de codificación IA
Adversa AI publicó el 26 de mayo de 2026 un patrón de secuestro por enlace simbólico que transforma una orden de shell aparentemente inocua en sobrescritura de la configuración y RCE en el host, en Claude Code, Cursor, Gemini, Antigravity, Copilot, Grok Build y Codex CLI.
Slopsquatting en 2026: 127 nombres de paquetes que los cinco LLM frontera alucinan de forma idéntica
Una replicación en arXiv del 16 de mayo de 2026 del estudio de slopsquatting de USENIX Security '25 muestra que las tasas de alucinación bajan en los modelos frontera — pero identifica 127 paquetes fantasma inventados de forma idéntica por todos los modelos probados, una superficie de ataque de supply chain independiente del modelo.
Blindfold: jailbreaks a nivel de acción que burlan las defensas semánticas de los LLM embebidos
Un artículo de SenSys '26 (11–14 de mayo de 2026) presenta Blindfold, un marco automatizado que jailbreakea LLM embebidos descomponiendo un objetivo dañino en acciones individualmente inocuas — hasta un 53 % más de éxito de ataque sobre un brazo robótico 6-DoF real.
MCPwn (CVE-2026-33032): un endpoint MCP de nginx-ui entrega el servidor web
Un endpoint MCP sin autenticación en nginx-ui ≤ 2.3.3 permite que cualquier atacante de red reescriba configuraciones de nginx y reinicie el servicio. CVSS 9.8, divulgación pública el 15 de abril de 2026, explotación en entorno real horas después del parche.
Medir la capacidad de exploit de los LLM: ExploitBench, ExploitGym y SCONE-bench
El 22 de mayo de 2026, Anthropic publicó los resultados de Mythos Preview en tres nuevos benchmarks de explotación. Las cifras — y la forma en que los benchmarks descomponen la cadena de exploit — cambian cómo los defensores deben pensar la capacidad ofensiva de frontera.
Proprietary Problems: el estudio de Cisco con 15 modelos cerrados muestra que las puntuaciones de seguridad de un solo turno pasan por alto la mayor parte del riesgo multiturno
Un estudio de Cisco del 27 de mayo de 2026 sobre 15 modelos insignia cerrados de OpenAI, Anthropic, Google, Amazon y xAI mide tasas de éxito de ataque multiturno entre el 7,89 % y el 88,30 %, con brechas de hasta 55 puntos respecto al régimen de un solo turno.
Un millón de servicios de IA expuestos: lo que el escaneo de Intruder encontró realmente
El 5 de mayo de 2026, Intruder publicó los resultados de un escaneo de internet que mapeó un millón de servicios de IA expuestos en dos millones de hosts. El fallo recurrente no es exótico: son las configuraciones por defecto permisivas.
La brecha de seguridad agente-humano: lo que la producción despliega, lo que la investigación estudia
Un paper de UCLA del 23 de mayo de 2026 audita 59 estudios académicos, 21 sistemas de agentes en producción y 26 plugins de seguridad, y constata que las defensas que prefieren los investigadores no tienen ningún despliegue en producción.
El impuesto de autonomía: cómo el entrenamiento defensivo rompe a los agentes LLM
Un artículo de USC del 19 de marzo de 2026 mide el coste del entrenamiento anti-inyección sobre la competencia de los agentes — los modelos defendidos expiran en el 99 % de las tareas, frente al 13 % de la línea base.
MCP necesita un apretón de manos de confianza: admisión atestiguada de servidores de herramientas
Un paper de arXiv del 22 de mayo de 2026 propone mcp-attested — una extensión retrocompatible de MCP que condiciona todo despacho de herramientas a una aserción firmada, una allowlist deny-by-default y un registro de auditoría a prueba de manipulaciones.
WARD: un modelo guardián co-evolucionado que resiste inyecciones de prompt adaptativas en agentes web
Un artículo de la NUS del 14 de mayo de 2026 propone WARD —un modelo guardián entrenado contra un atacante adversarial con memoria— y reporta recall casi perfecto fuera de distribución frente a inyecciones de prompt en agentes web.
MemMorph: secuestro de la selección de herramientas mediante envenenamiento fluido de la memoria
Un artículo de arXiv del 24 de mayo de 2026 (NTU Singapur) muestra que tres entradas plausibles en la memoria bastan para guiar a un agente hacia la herramienta elegida por el atacante con un 85,9 % de éxito — y sobreviven a tres defensas estándar.
SilentRetrieval: envenenamiento fluido de corpus RAG que evade los filtros de perplejidad
Un preprint de arXiv del 27 de mayo de 2026 presenta un ataque en dos etapas que oculta disparadores de secuestro dentro de documentos fluidos, alcanzando 57 % de éxito LLM en Natural Questions y MS MARCO con un solo documento envenenado por consulta.
CISA + Five Eyes publican la primera guía conjunta sobre adopción de IA agéntica
El 1 de mayo de 2026, CISA, NSA y las agencias cibernéticas de los Five Eyes publicaron 'Careful Adoption of Agentic AI Services' — una taxonomía de 5 riesgos y un manual de despliegue que los operadores de infraestructuras críticas deben incorporar a sus marcos de ciberseguridad existentes.
Microsoft Copilot Cowork: skills envenenadas exfiltran archivos de M365 sin aprobación
Divulgación de PromptArmor del 26 de mayo de 2026: cinco líneas de inyección de prompt dentro de una skill de Copilot Cowork bastan para filtrar documentos de SharePoint y OneDrive vía mensajes de Teams auto-aprobados.
CrossMPI: inyección de prompt solo por imagen dirige lo que leen y ven los VLM
Un artículo de la Universidad de Xidian publicado en arXiv el 15 de mayo de 2026 presenta CrossMPI: perturbaciones de imagen imperceptibles que modifican cómo los modelos de visión-lenguaje interpretan tanto la imagen como la solicitud textual del usuario, con un 66 % de éxito promedio en cinco LVLM.
IterInject: cuando un LLM optimiza sus propias inyecciones de prompt indirectas
Un artículo del 23 de mayo de 2026 cierra el bucle payload / diagnosticador / optimizador LLM — el ASR de inyección indirecta sube de casi cero a 33–90 % en InjecAgent y 5 de 9 objetivos caen en Claude Code.
La NSA AISC publica una guía de seguridad para MCP en entornos de IA
El 20 de mayo de 2026, el Artificial Intelligence Security Center de la NSA publicó una hoja informativa de 15 páginas sobre Model Context Protocol: ocho clases de debilidades, cinco incidentes reales y nueve recomendaciones defensivas.
pgAdmin 4 incorpora un panel LLM y hereda un LFI+SSRF clásico (CVE-2026-7817)
pgAdmin 4 9.15 corrige un LFI y un SSRF autenticados en los nuevos endpoints de configuración de la API LLM. La clase de bug tiene cuarenta años; la superficie es nueva.
Envenenar la torre de vigilancia: cuando los copilotos de SOC leen logs controlados por el atacante
Un artículo del 23 de mayo de 2026 formaliza la inyección de prompt por sustrato de logs — contenido adverso colado en campos de logs para dirigir los asistentes LLM de los SOC. La mejor defensa deja pasar un 11,8 % medio de inyecciones.
Contaminación temporal de memoria: deriva longitudinal de seguridad en agentes LLM
Tres preprints de arXiv de abril y mayo de 2026 convergen en un modo de fallo complementario al envenenamiento de memoria — los agentes con memoria derivan hacia lo inseguro a medida que se acumula contexto benigno, con los resúmenes comprimidos actuando como canal de blanqueo.
La presión: los equipos de seguridad del open source bajo la avalancha de vulnerabilidades asistidas por IA
El 26 de mayo de 2026, Daniel Stenberg (curl) publica «The pressure»: más de un informe de seguridad creíble al día, doce CVE confirmadas a mitad de ciclo y un patrón que otros mantenedores ya confirman en paralelo.
El harness del agente es tu frontera real de privilegios — y la mayoría de los equipos la dibuja en el lugar equivocado
Un análisis de Pillar Security del 26 de mayo de 2026 sostiene que el harness — Claude Code, Cursor, Codex — guarda los secretos, herramientas y hooks que el agente nunca ve. Los bugs recientes de harness y la CVE-2026-22708 lo demuestran.
Sockpuppeting: una sola línea de prefill que hace jailbreak a 11 LLM en producción
Una línea inyectada como último mensaje del asistente induce a 7 de 10 modelos importantes a generar contenido dañino. La defensa no está en el modelo — está en la validación del orden de mensajes a nivel de API.
GrafanaGhost: inyección indirecta de prompt encadenada con un bug de parseo de URL para exfiltrar datos de paneles
La divulgación del 7 de abril de 2026 de Noma Security muestra cómo tres defectos modestos — un punto de inyección almacenado, una comprobación startsWith('/') y un bypass de guardarraíl en una sola palabra — se combinan en un canal silencioso de exfiltración a través del asistente IA de Grafana.
Las redes de agentes fallan de otra forma: el red-team de Microsoft, más RAMPART y Clarity
Microsoft Research red-teameó una plataforma interna con más de 100 agentes siempre activos. Cuatro patrones de ataque — propagación, amplificación, captura de confianza, cadenas de proxy — solo aparecen a nivel de red. RAMPART y Clarity, liberados el 20 de mayo de 2026, son la respuesta.
Antigravity find_by_name: cuando una llamada a herramienta nativa salta por encima del Secure Mode
El 20 de abril de 2026, Pillar Security divulgó que un único parámetro sin sanear de la herramienta find_by_name de Google Antigravity convertía la búsqueda de archivos en ejecución de código arbitrario — y eludía el sandbox más estricto del IDE.
El boletín de Apple de mayo de 2026 acredita formalmente a Claude en dos CVE de macOS
El 11 de mayo de 2026, el aviso de seguridad de Apple para macOS Tahoe 26.5 menciona a Claude junto a sus investigadores en dos CVE — un desbordamiento de enteros en el kernel y un use-after-free en WebKit. La investigación de vulnerabilidades asistida por IA ya está en el changelog oficial.
BadHost (CVE-2026-48710): un solo carácter en el encabezado Host elude la autenticación en Starlette, vLLM y FastMCP
X41 D-Sec divulgó el 22 de mayo de 2026 un bypass de autorización crítico en Starlette < 1.0.1. Un único / ? o # en el encabezado HTTP Host desincroniza la ruta enrutada respecto a la ruta que ve el middleware, rompiendo la autorización basada en path en vLLM, LiteLLM, FastMCP y miles de agentes de IA construidos sobre FastAPI.
Bleeding Llama: un fallo de parsing GGUF filtra la memoria del proceso Ollama a atacantes no autenticados
Divulgada públicamente en mayo de 2026 y bautizada Bleeding Llama por Cyera, la CVE-2026-7482 permite a un atacante remoto extraer fragmentos arbitrarios del heap de un servidor Ollama — claves de API, system prompts, conversaciones de otros usuarios — con tres llamadas a la API sin autenticación. El parche silencioso se publicó 2,5 meses antes de la asignación del CVE.
ClaudeBleed: cuando un agente de navegador confía en la extensión equivocada
LayerX reveló ClaudeBleed el 6 de mayo de 2026: un fallo de frontera de confianza permitía que cualquier extensión de Chrome controlara Claude in Chrome y exfiltrara datos de Gmail, Drive y GitHub. El primer parche fue eludido en pocas horas.
Inyección de prompt codificada: cuando los guardrails fallan porque el LLM decodifica el payload
El 4 de mayo de 2026, un tuit escrito en código Morse vació unos 175 000 $ de una billetera cripto controlada por Grok. El incidente es la demostración más cara hasta hoy de un punto ciego defensivo conocido: los filtros por coincidencia de cadenas no ven a través de las codificaciones que el propio modelo decodifica sin problema.
La primera ola de CVE: el descubrimiento asistido por IA reconfigura los volúmenes de divulgación
El análisis de VulnCheck del 14 de mayo de 2026 muestra una subida YTD de +563 % en Chrome, +476 % en GitHub, +180 % en VMware, +170 % en Apache. El giro sistémico tras los titulares de Apple, Mozilla y ActiveMQ ya es visible en las cifras.
Inyección por font-mapping: cuando el peer review se vuelve superficie de ataque para LLM
Un benchmark de arXiv del 25 de mayo de 2026 muestra que payloads ocultos vía font-mapping hacen pasar las revisiones de un LLM de rechazo a aceptación. ICML 2026 ya usó la misma técnica en espejo para rechazar 497 artículos.
Transporte STDIO de MCP: la decisión de diseño que se convirtió en 11 CVE y 200 000 agentes expuestos
El 16 de abril de 2026, OX Security reveló que el transporte STDIO del MCP de Anthropic ejecuta cualquier comando que reciba. Anthropic lo calificó como «por diseño». La cascada ha producido once CVE en seis semanas.
MultiBreak: 10 389 prompts multiturno revelan cómo los jailbreaks conversacionales burlan la alineación de los LLM
Un paper aceptado en ICML 2026, publicado el 3 de mayo, presenta el benchmark multiturno más amplio y diverso hasta la fecha. Registra brechas en la tasa de éxito de ataque de hasta 54 puntos en DeepSeek-R1-7B y 34,6 en GPT-4.1-mini frente al estado del arte previo, y cuantifica cómo una alineación que aguanta en un solo turno se desploma a lo largo de varios.
Cuando los prompts se vuelven shells: de la inyección al RCE en frameworks de agentes
Dos CVE en Microsoft Semantic Kernel y cuatro en CrewAI — todos divulgados a comienzos de 2026 — convierten un único prompt inyectado en ejecución remota de código sobre el host. El patrón es estructural, no accidental.
Teaching Claude Why: cómo Anthropic redujo a cero el desalineamiento agéntico
El 8 de mayo de 2026, el equipo de Alignment Science de Anthropic publicó un estudio que muestra que enseñar a Claude a explicar su razonamiento ético — no solo a demostrarlo — redujo el desalineamiento agéntico del 96 % a menos del 1 %.
Envenenar una vez, explotar para siempre: envenenamiento persistente de la memoria de los agentes LLM (OWASP ASI06)
Un paper de arXiv de abril de 2026 sobre memory poisoning entre sitios y un post de OWASP del 13 de mayo de 2026 sobre el hallazgo MemoryTrap de Cisco contra Claude Code convergen en la misma lección: la memoria del agente es una frontera de confianza.
Asegurar los agentes IA como sistemas operativos: el plano del CISPA
Un artículo del CISPA publicado el 14 de mayo de 2026 traslada décadas de seguridad de SO a los agentes LLM. Probado en cuatro agentes tipo OpenClaw, dos clases de debilidades — exfiltración entre usuarios y salida de red no autorizada — fallan en todos los sistemas.
Ataque ICS asistido por IA: lecciones de la intrusión contra la empresa de aguas de Monterrey
El informe publicado por Dragos en mayo de 2026 sobre Servicios de Agua y Drenaje de Monterrey documenta la primera campaña analizada públicamente en la que un LLM comercial — Claude — fue el operador técnico principal de un intento de intrusión OT.
AudioHijack: audio imperceptible secuestra agentes de voz (IEEE S&P 2026)
Un artículo de IEEE S&P del 16 de abril de 2026 introduce la inyección de prompt auditiva: una reverberación adversaria oculta en el audio empuja a 13 modelos de audio-lenguaje y a agentes de voz comerciales (Mistral AI, Microsoft Azure) a ejecutar acciones no autorizadas con un 79-96% de éxito.
XSS en Discourse AI (CVE-2026-27740): cuando la salida de un LLM se trata como HTML de confianza
Un mensaje reportado, un moderador IA, una llamada a htmlSafe. El plugin Discourse AI trataba la salida del LLM como marcado de confianza, convirtiendo una prompt injection indirecta en XSS contra el staff. Publicado el 19 de marzo de 2026.
La Tríada Letal: cuando un agente lee datos privados, contenido no confiable y puede llamar fuera
El marco de Simon Willison para el único error arquitectónico que convirtió la oleada de exfiltraciones de agentes de IA de 2026 en una clase de vulnerabilidad, no en una coincidencia.
Vulnerabilidades de back-end en MCP: fallos clásicos reaparecen en los puentes IA-bases de datos
La investigación de Akamai del 12 de mayo de 2026 detalla una inyección SQL (CVE-2025-66335), falta de autenticación y entradas sin sanear en tres servidores MCP — Apache Doris, Apache Pinot y Alibaba RDS. El patrón, más que los bugs, es la enseñanza.
OpenAI Daybreak y GPT-5.5-Cyber: un modelo de seguridad permisivo tras una verificación de identidad
Entre el 7 y el 12 de mayo de 2026, OpenAI lanzó Daybreak — una plataforma de ciberseguridad sobre GPT-5.5, Codex Security y un hermano «cyber-permisivo», GPT-5.5-Cyber. El red team de UK AISI ya había encontrado un jailbreak universal en seis horas.
Project Glasswing: Claude Mythos halla más de 10 000 bugs críticos en un mes
La actualización publicada por Anthropic el 26 de mayo de 2026 indica que cerca de 50 socios de Project Glasswing han usado Claude Mythos Preview para identificar más de 10 000 vulnerabilidades de severidad alta o crítica, incluidas 271 fallas latentes parcheadas en Firefox 150.
Semantic Kernel: cuando un prompt se convierte en shell (CVE-2026-25592, CVE-2026-26030)
Microsoft divulgó el 7 de mayo de 2026 dos vulnerabilidades críticas en Semantic Kernel que convierten un único prompt inyectado en ejecución de código a nivel de host. La causa raíz es arquitectónica: el registro de herramientas y eval() se trataron como comodidades, no como fronteras de seguridad.
Disparadores ocultos en SKILL.md: ataques semánticos a la cadena de suministro de los registros de skills
Un artículo de la Universidad de Maryland del 12 de mayo de 2026 muestra que un añadido de 20 tokens en un archivo SKILL.md hace que el agente descubra y seleccione una skill adversaria en el 77–86 % de los ensayos, y elude los escaneos del registro hasta el 100 % de las veces.
Trust No Tool: envenenamiento cognitivo de agentes LLM vía la retroalimentación de herramientas
Un artículo de arXiv del 17 de mayo de 2026 introduce el «envenenamiento cognitivo»: una herramienta maliciosa que se gana la confianza del agente durante muchas interacciones benignas y solo arma la acción final. El objetivo de defensa se desplaza del prompt a la trayectoria.
Usability as a Weapon: cómo una petición de mejora vuelve inseguro el código de un LLM
Un paper de arXiv del 11 de mayo de 2026 demuestra que pedirle a un LLM de código una versión 'más rápida', 'más simple' o con 'una función más' elimina las protecciones de forma silenciosa. UPAttack llega al 98,1 % en GPT-5.2-chat y Gemini-3.
Agents Rule of Two: la respuesta pragmática de Meta al prompt injection
Publicada el 31 de octubre de 2025 por Meta y retomada en la guía de Databricks de mayo de 2026, la Agents Rule of Two limita cada sesión de agente a dos de tres propiedades de riesgo — el marco más accionable mientras el prompt injection siga sin solución.
CVE-2026-35435: los agentes M365 publicados desde Azure AI Foundry confiaron en quien no debían
Divulgada el 7 de mayo de 2026 (CVSS 8.6), una falla de control de acceso en Azure AI Foundry permite a atacantes no autorizados elevar privilegios a través de los agentes publicados en M365. Microsoft reporta explotación activa; hay mitigaciones disponibles antes del parche.
Azure SRE Agent: una verificación de token multi-tenant permitía que extraños observaran sus incidentes (CVE-2026-32173)
Divulgada el 20 de abril de 2026, una mala configuración de app registration en Entra ID sobre el WebSocket /agentHub de Azure SRE Agent permitía a cualquier tenant conectarse y escuchar cada prompt, razonamiento, comando CLI y credencial — en silencio.
Claw Chain: cuatro CVE de OpenClaw que convierten al agente de IA en las manos del atacante
Divulgada el 15 de mayo de 2026, la Claw Chain de Cyera Research encadena cuatro fallos parcheados de OpenClaw — escape de sandbox, fuga de variables de entorno, elevación de privilegios MCP, lectura por symlink — en una toma de control completa del host vía el propio agente.
Comment and Control: un mismo patrón de inyección de prompt, tres agentes filtrando secretos de GitHub Actions
Divulgada el 15 de abril de 2026, la técnica Comment and Control convierte títulos de PR, comentarios de issues y comentarios HTML en canales de exfiltración de credenciales en Claude Code, Gemini CLI y GitHub Copilot Agent.
Integridad contextual: por qué fallan las defensas contra inyección de prompt
Un artículo de mayo de 2026 de Abdelnabi y Bagdasarian relee la inyección de prompt a través de la Integridad Contextual y muestra que separar datos e instrucciones es un error de categoría.
Copirate 365: encadenando inyección de prompt, invocación diferida de herramientas y secuestro de memoria en M365 Copilot (CVE-2026-24299)
El informe DEF CON de Johann Rehberger, publicado en mayo de 2026, recorre una cadena de inyección indirecta de prompt en cinco etapas que convierte un correo trampa en una puerta trasera persistente dentro de Microsoft 365 Copilot. Ya está parcheado, pero los patrones son genéricos.
Inyección indirecta de prompts en la web: tres estudios convergen en abril de 2026
Google, Forcepoint y CISPA midieron de forma independiente la inyección indirecta de prompts en la web abierta en abril de 2026. El balance: más de 15 000 cargas validadas, 32 % de crecimiento y plantillas industrializadas.
LiteLLM CVE-2026-42208: una inyección SQL pre-autenticación en la pasarela de IA
Divulgada el 20 de abril de 2026 y explotada 36 horas después de la publicación del aviso global, CVE-2026-42208 convierte la cabecera Authorization de LiteLLM en una lectura directa sobre cada credencial de proveedor que la pasarela intermedia.
Cuando el atacante es otro LLM: los grandes modelos de razonamiento como jailbreakers autónomos
Un artículo de Nature Communications formalizado en mayo de 2026 muestra cómo cuatro modelos de razonamiento — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini y Qwen3 235B — vulneran las salvaguardas de nueve LLM objetivo con una tasa de éxito global del 97,14 %, partiendo únicamente de un prompt de sistema.
Jailbreaks por codificación matemática: cuando la teoría de conjuntos elude la seguridad de los LLM
Un artículo de arXiv publicado el 5 de mayo de 2026 muestra que reformular un prompt dañino como un problema de teoría de conjuntos o de lógica formal evade el entrenamiento de seguridad en el 46–56 % de los intentos sobre ocho modelos frontera — pero solo si un LLM auxiliar realiza la reformulación.
PraisonAI CVE-2026-44338: un servidor de agentes sin autenticación, explotado en 3h44
Divulgada el 11 de mayo de 2026, CVE-2026-44338 entrega PraisonAI con la autenticación desactivada en duro en su antiguo servidor API. Un escáner CVE-Detector sondeó el endpoint menos de cuatro horas después.
ShareLeak (CVE-2026-21520): el primer CVE asignado por Microsoft a una inyección de prompt en Copilot
Divulgado el 15 de abril de 2026, el informe ShareLeak de Capsule Security describe una inyección indirecta de prompt en Microsoft Copilot Studio. Microsoft asignó CVE-2026-21520 (CVSS 7.5) — un precedente que recalifica la prompt injection como clase de vulnerabilidad rastreada.
ARGUS: una defensa por grafo de procedencia contra la inyección de prompts contextual
Publicado el 5 de mayo de 2026, el paper ARGUS introduce la auditoría por grafo de influencia para agentes LLM — la tasa de éxito de ataque cae del 28,8 % al 3,8 % en un nuevo benchmark.
Jerarquía de instrucciones: entrenar a los LLM para priorizar órdenes privilegiadas
El artículo de OpenAI de 2024 propone una defensa estructural frente a la inyección de prompt: enseñar al modelo que sistema > usuario > salida de herramienta. La idea ya es central en el entrenamiento de GPT-4o-mini y la serie o.
LMDeploy SSRF: cuando un cargador de imágenes secuestra la infraestructura de IA
CVE-2026-33626 convirtió load_image() de LMDeploy en una primitiva SSRF genérica. El primer exploit en producción se observó 12 horas y 31 minutos tras la publicación del aviso.
Secuestro de agentes en localhost: ataques WebSocket cross-origin a agentes de código IA
CVE-2026-44211 (CVSS 9.7), divulgada el 7 de mayo de 2026, demuestra cómo una sola visita a una página maliciosa puede secuestrar un agente de código IA que se ejecuta en el portátil de una persona desarrolladora. La clase de ataque es genérica — y arquitectónica.
Mini Shai-Hulud: el gusano de supply chain que apuntó al stack de tooling de IA
Divulgado entre el 11 y el 18 de mayo de 2026, el gusano Mini Shai-Hulud troyanizó más de 170 paquetes de npm y PyPI — incluidos Mistral AI, Guardrails AI y TanStack — y persiste dentro de Claude Code y VS Code.
El filtrado de salida vence a la autodefensa del modelo: 20 000 ataques adaptativos, un solo superviviente
Publicado el 26 de abril y revisado el 12 de mayo de 2026, un artículo de Swept AI / Michigan enfrentó nueve defensas contra inyección de prompts a un atacante adaptativo. Todas las defensas del lado del modelo terminaron cediendo. El filtrado de salida en la aplicación resistió — cero fugas en 15 000 ataques.
Prompts como shells: cuando la inyección de prompt se convierte en RCE en frameworks de agentes
Dos CVE divulgadas en Microsoft Semantic Kernel el 7 de mayo de 2026 (CVE-2026-25592, CVE-2026-26030) muestran cómo un único prompt inyectado puede pasar del texto a la ejecución remota de código en el host del agente.
ASCII Smuggling: comandos ocultos vía caracteres Unicode Tag
Los caracteres Unicode Tag (U+E0000–U+E007F) son invisibles para los humanos pero interpretados por los LLM. Los atacantes los incrustan en emails, páginas web y PDFs para inyectar comandos silenciosos que secuestran el comportamiento de agentes.
Many-shot jailbreaking: 256 ejemplos para saltar cualquier alineamiento
Investigadores de Anthropic mostraron que rellenando la ventana de contexto con 256 falsos ejemplos de Q&A se elude el entrenamiento de seguridad. Más contexto = más superficie de ataque.
Extracción de system prompt mediante ataques de repetición
Pedirle al modelo que 'repita la palabra poema para siempre' lo hace eventualmente vomitar datos de entrenamiento y system prompts. Documentado en Claude 3, GPT-4 y Gemini.
Sleeper agents: puertas traseras ocultas que sobreviven al entrenamiento de seguridad
Anthropic demostró que modelos entrenados con frases-disparador ocultas retienen el comportamiento backdoor incluso después del entrenamiento RLHF estándar. Las implicaciones para los LLM de pesos abiertos son significativas.