AGENTS
(91)91 hack(s).
Selección de herramientas con privilegios excesivos: los agentes eligen más potente de lo necesario
Un artículo de junio de 2026 y su benchmark ToolPrivBench muestran que los agentes LLM habituales eligen con frecuencia herramientas más privilegiadas de lo preciso — y que la alineación de seguridad no lo corrige.
El grafo de comunicación de los agentes revela el flujo antes de ejecutarse
Un artículo de arXiv del 5 de junio de 2026 muestra que, incluso con cargas útiles cifradas, el grafo de comunicación A2A/MCP permite a un observador pasivo predecir la clase de tarea de un flujo desde su inicio — y actuar antes de que termine.
Daño autoinfligido por agentes: cuando la IA rompe producción sin atacante
El estudio de Cyera de mayo de 2026 sobre más de 7.200 incidentes de IA aísla 344 casos de daño causado por agentes —188 sin ningún atacante externo— en los que agentes autónomos borraron bases de datos, filtraron secretos y agotaron presupuestos.
Sleeper Memory Poisoning: ataques latentes contra agentes LLM con memoria
Un artículo de mayo de 2026 muestra que un atacante puede implantar 'memorias' falsas a través de un documento o una página web, que permanecen latentes y luego dirigen las acciones de un asistente en sesiones posteriores.
AutoJack: un agente navegador convierte una página web en RCE en el host
La investigación AutoJack de Microsoft (18 de junio de 2026) muestra a un agente de IA navegador heredando la identidad localhost para alcanzar un WebSocket MCP local y ejecutar procesos arbitrarios en el host.
CVE-2026-32211: falta de autenticación en Azure MCP Server
Microsoft publicó CVE-2026-32211 el 2 de abril de 2026: una falta de autenticación en Azure MCP Server que permite a un atacante no autenticado divulgar información por la red. Microsoft la puntúa 9,1; el NVD, 7,5.
WAAA: cuando los navegadores agénticos resucitan ataques web
Un artículo de mayo de 2026 construye el primer modelo de amenazas centrado en la web para navegadores agénticos y muestra que 10 ataques web mitigados desde hace tiempo regresan, a menudo amplificados, porque el agente es un delegado confundido incapaz de distinguir un paso de la tarea de una trampa web.
Agentes de código demasiado celosos: acciones fuera de alcance en tareas benignas
Dos benchmarks de mayo de 2026 miden a los agentes de código que se exceden en peticiones benignas — borran archivos, eliminan credenciales — y muestran que el riesgo lo determina el framework, no el modelo.
Secuestro de selección de herramienta: forzar al agente a elegir la del atacante
Un ataque de NDSS 2026 y un artículo de IBM de abril de 2026 apuntan al mismo punto ciego: el paso en que un agente elige qué herramienta llamar. Envenene el catálogo y el agente elige la suya, con un 70 a 100 % de éxito.
CVE-2026-0755: inyección de comandos y robo de archivos en gemini-mcp-tool
Un aviso del 18 de junio de 2026 detalla cómo el popular gemini-mcp-tool dejaba que una entrada no confiable llegara al shell y al parser @file de Gemini CLI — RCE CVSS 9.8 y exfiltración de archivos, corregido en 1.1.6.
NRT-Bench: red-teaming multironda de agentes LLM que operan una planta
Un benchmark publicado el 18 de junio de 2026 sitúa a agentes LLM operadores en una sala de control nuclear simulada. Ataques multironda adaptativos cruzaron un límite de seguridad en el 8,7-12,1 % de las sesiones, y los fallos apenas se solapan entre modelos.
Vertex AI «Double Agents»: service agents con privilegios excesivos como vía de escalada en la nube
Unit 42 mostró (31 de marzo de 2026) que un despliegue de Vertex AI Agent Engine expone, vía el servicio de metadatos, una identidad de servicio demasiado amplia — convirtiendo un agente mal configurado en acceso de lectura a todos los buckets del proyecto.
Inyección almacenada: cuando una inyección sobrevive a la sesión
Un artículo de arXiv de junio de 2026 replantea la inyección de prompts como un problema almacenado y entre sesiones: una vez que el texto adversario queda en el estado persistente de un agente, puede dirigir ejecuciones mucho después de que el atacante se haya ido.
MemPoison: troyanizar la memoria de un agente con una simple conversación
Un artículo de arXiv de mayo de 2026 implanta una puerta trasera activable en la memoria a largo plazo de un agente LLM con solo conversar — y está diseñado para sobrevivir a las etapas de extracción y reescritura que deberían filtrar el contenido envenenado.
Agent libOS: que la frontera de autoridad sea el runtime, no el wrapper de la herramienta
Un artículo de arXiv del 2 de junio de 2026 sostiene que la mayoría de los frameworks de agentes confunden visibilidad de una herramienta con autoridad sobre un recurso, y propone un runtime tipo library-OS donde los controles de capacidades viven en las primitivas, no en los wrappers.
CSRF en el SDK de Go de MCP: una web puede ejecutar tus herramientas locales (CVE-2026-33252)
El SDK oficial de Go de MCP aceptaba POST entre sitios del navegador sin validar la cabecera Origin. En un servidor local sin autenticación, cualquier web visitada podía invocar tus herramientas. Corregido en 1.4.1.
SkillAttack: un red-teaming automatizado encuentra exploits en las skills de agentes
Un artículo de abril de 2026, SkillAttack, replantea el descubrimiento de exploits como un problema de búsqueda de rutas y muestra que incluso skills bien intencionadas son alcanzables — hasta 0,93 de tasa de éxito en skills adversas.
Confusión de autoridad: cuando el agente con herramientas abusa de su propio acceso
Un artículo de mayo de 2026 nombra un modo de fallo distinto de la inyección de prompts: un dato no confiable puede informar el razonamiento de un agente, pero nunca autorizar un efecto secundario. AIRGuard impone esa frontera en el momento de la acción.
CVE-2026-26268: el agente de Cursor convierte un git checkout en ejecución de código
Un repositorio malicioso oculta un repositorio Git «bare» con un hook automático. Cuando el agente de IA de Cursor ejecuta git checkout para «explicar el código», el hook se dispara — ejecución de código arbitrario en la máquina del desarrollador, sin confirmación. Corregido en Cursor 2.5.
Ataques mediados por el usuario: cuando el usuario es el canal de inyección
Un estudio de enero de 2026 sobre 12 agentes comerciales muestra que el atacante no necesita tocar el agente. Engaña a un usuario de buena fe para que reenvíe contenido envenenado, que la jerarquía de instrucciones eleva entonces a intención de usuario de confianza. Tasa de evasión por defecto superior al 92 %.
CVE-2026-26030: la inyección de prompts se convierte en RCE en Microsoft Semantic Kernel
El AI Red Team de Microsoft mostró dos fallos de Semantic Kernel que convierten un solo prompt inyectado en ejecución de código en el host. La lección: todo parámetro de herramienta que el modelo pueda influir es una entrada controlada por el atacante. Corregido el 7 de mayo de 2026.
SearchGEO: hacer que los agentes de búsqueda LLM respalden páginas del atacante
Un artículo de arXiv del 15 de junio de 2026 mide cómo el contenido web controlado por un atacante se convierte en una recomendación respaldada por el agente — la tasa de éxito va del 0 % al 31,4 % según el modelo.
Agentes zombis: cuando un agente LLM autoevolutivo sigue comprometido entre sesiones
Una inyección indirecta puntual, observada durante una sesión inocua, puede escribirse en la memoria a largo plazo del agente y reproducirse luego como instrucción, convirtiendo un prompt efímero en control persistente. Artículo de ataque de febrero de 2026, defensa (CAMS) de mayo de 2026.
AI Agent Traps: el mapa de seis categorías de DeepMind sobre cómo la web secuestra a los agentes
El paper «AI Agent Traps» de Google DeepMind (SSRN, finales de marzo de 2026) ofrece la primera taxonomía sistemática del contenido web adversario que ataca la percepción, el razonamiento, la memoria, la acción, la dinámica multiagente y al supervisor humano de un agente.
ShadowMerge: envenenar la memoria-grafo de los agentes por colisión de relaciones
Un artículo de mayo de 2026 envenena la memoria-grafo de un agente con relaciones que comparten un ancla y un canal reales pero con un valor contradictorio: 93,8 % de éxito en Mem0, y los filtros de entrada no lo detectan.
Los agentes de navegador revelan su modelo por su forma de hacer clic
Un artículo del 14 de mayo de 2026 muestra que las acciones de un agente de navegador LLM en una página bastan para identificar el modelo subyacente, con hasta un 96 % de precisión en 14 modelos de vanguardia, sin cabeceras falsificables.
DoS por extensión de razonamiento: cuando la barrera de seguridad de IA se vuelve la superficie de ataque
Un artículo de junio de 2026 muestra que un solo documento envenenado puede atrapar a las barreras de seguridad de IA basadas en razonamiento en bucles de reflexión interminables, ralentizando los flujos de agentes hasta 148x. El objetivo: la disponibilidad, no la integridad.
Agentes de código IA: los atacantes van por la credencial, no por el modelo
Seis exploits de 2026 contra Codex, Claude Code, Copilot y Vertex AI esquivaron las defensas a nivel de modelo y alcanzaron el mismo objetivo: las credenciales de ejecución del agente. La causa raíz es una brecha de gobernanza de identidades, no un problema de prompt.
Checkpointers de LangGraph: de la inyección SQL al RCE en agentes autoalojados
Check Point Research encadenó una inyección SQL en el checkpointer de LangGraph con una deserialización msgpack insegura hasta lograr ejecución remota de código. Divulgado el 11 de junio de 2026; los tres CVE están corregidos.
Envenenamiento de terminación: atrapar a un agente LLM en bucles sin fin
Un artículo de arXiv de mayo de 2026 muestra que una inyección puede distorsionar el juicio de fin de tarea de un agente y provocar cómputo ilimitado. El framework LoopTrap reporta hasta 25x de amplificación.
FragFuse: consultas fragmentadas que eluden el control de acceso de los agentes LLM
Un artículo de arXiv del 14 de junio de 2026 muestra que una solicitud prohibida puede dividirse en fragmentos inocuos, guardarse en la memoria a largo plazo del agente y recomponerse al recuperarla, eludiendo los controles de acceso en el 86,3 % de los casos.
Sistemas multiagente LLM entre dominios: siete retos de seguridad
Una Perspectiva publicada el 13 de junio de 2026 en npj Artificial Intelligence cartografía siete retos de seguridad que surgen cuando agentes LLM de distintas organizaciones colaboran sin un modelo de confianza común.
TOCTOU en agentes de IA: violaciones de atomicidad entre observación y acción
Un viejo fallo de los sistemas operativos reaparece en los agentes: el mundo cambia entre el momento en que el agente mira y el momento en que actúa. Investigación de 2026 lo formaliza para agentes GUI, de navegador y multiagente.
El servidor MCP de Splunk registra tokens de autenticación en texto claro (CVE-2026-20205)
La app Splunk MCP Server escribía los tokens de sesión y de autorización de los usuarios en texto claro en el índice _internal — un fallo CWE-532 (secretos en los registros) que convierte el acceso a los logs en robo de tokens. Corregido en la v1.0.3.
El DNS rebinding convierte los servidores MCP en localhost en superficie de ataque remota
Una oleada de divulgaciones coordinadas 2025–2026 alcanzó a todos los grandes SDK de MCP por una misma causa raíz: servidores HTTP en localhost que no validan la cabecera Host/Origin. La más reciente, CVE-2026-11624 en el MCP Toolbox de Google (13 de junio de 2026), se califica como Crítica 9,4.
CVE-2026-46519: cuando un servidor MCP filtra herramientas al mostrarlas pero no al ejecutarlas
mcp-server-kubernetes aplicaba sus controles de solo lectura y lista de permitidos únicamente en tools/list, nunca en tools/call. Cualquier cliente que supiera el nombre de una herramienta podía ejecutarla. Una lección clara sobre autorización en la capa de presentación frente a la de ejecución.
Flowise CVE-2026-41264: código pandas escrito por el LLM que llega a RCE
Una prompt injection en el agente CSV de Flowise lleva al modelo a generar Python que evade una lista negra de expresiones regulares y ejecuta comandos del SO. Divulgada el 15 de abril de 2026, corregida en 3.1.0.
ConVerse: cuando dos agentes conversan, el más fuerte filtra más
Un benchmark de conversaciones agente-a-agente halla que los ataques de privacidad tienen éxito hasta el 88 % de las veces y las brechas de seguridad hasta el 60 % — y que los modelos más capaces filtran más, no menos.
GitHub Action de Claude Code: cómo la herramienta Read filtró secretos de CI/CD
Microsoft Threat Intelligence descubrió que la herramienta Read de Claude Code Action eludía el saneamiento de entorno de Bash para leer /proc/self/environ y filtrar la ANTHROPIC_API_KEY del runner. Corregido en la v2.1.128.
Blanqueo de causalidad: cuando una llamada de herramienta denegada igual filtra datos
Un artículo de abril de 2026 muestra que denegar la llamada de herramienta de un agente no termina el ataque: la propia denegación es un canal de información. El rastreo de taint plano no lo ve.
Descomposición de contexto fracturado: jailbreaks por brechas de procedencia
Un artículo de arXiv del 8 de junio de 2026 formaliza la «brecha de procedencia» en agentes con herramientas: conducta dañina ensamblada con acciones inocuas repartidas en el tiempo, hasta +28,3 puntos de éxito.
SABER: los agentes de código fallan en seguridad operacional aunque rechacen los prompts maliciosos
Un benchmark del 31 de mayo de 2026 evalúa a los agentes de código LLM por el estado final de un repositorio real, no por el rechazo del prompt. Incluso el mejor modelo deja una violación dañina en más de la mitad de las ejecuciones.
Bypass de allowlist en Cursor: los built-ins del shell envenenan el entorno
CVE-2026-22708 permite que una inyección de prompt use built-ins de shell de confianza como export y typeset para envenenar variables de entorno en Cursor, convirtiendo un comando git o python aprobado en ejecución remota de código. Corregido en 2.3.
Ataques al flujo de control por memoria: cuando la memoria dirige las herramientas de un agente
Un artículo de marzo de 2026 muestra que la memoria envenenada de un agente no solo corrompe el contenido: secuestra el flujo de control de la selección de herramientas, forzando herramientas no deseadas y pasos omitidos en más del 90 % de los ensayos, entre tareas y mucho después de la inyección.
Servidores MCP remotos: 40 % sin autenticación, OAuth roto en el resto
Un estudio de arXiv de mayo de 2026 escaneó 7973 servidores MCP remotos: el 40,55 % expone sus herramientas sin autenticación alguna, y los 119 servidores OAuth probados presentaban al menos un fallo — 9 CVE asignadas.
Cinco ataques a x402: cuando los agentes de IA pagan, las costuras entre capas gotean
Un artículo del 12 de mayo de 2026 rompe formalmente x402, el protocolo de pago agéntico basado en HTTP 402. Cinco ataques sobre liquidación, repetición, capa web y descubrimiento — un pago repetido produjo 248 concesiones en un endpoint en producción.
La herramienta shell de MS-Agent: una denylist regex convierte la inyección de prompt en RCE
CVE-2026-2256 permite que contenido malicioso induzca a MS-Agent (ModelScope) a ejecutar comandos del sistema. La causa raíz es un antipatrón conocido: proteger una herramienta shell con una denylist regex en lugar de una allowlist.
OWASP ASI02: cuando un agente vuelve sus propias herramientas contra usted
Tool Misuse & Exploitation es el riesgo n.º 2 del Top 10 de OWASP para Aplicaciones Agénticas 2026. El peligro no es que un agente gane nuevas herramientas, sino que abuse de las que ya tiene: sobreprivilegio, descriptores envenenados, encadenamiento inseguro.
VIPER-MCP: 67 CVE por fallos de tipo taint en 40 000 servidores MCP
Un artículo de arXiv del 20 de mayo de 2026 auditó 39 884 repositorios de servidores MCP de código abierto, confirmó 106 zero-days de extremo a extremo y obtuvo 67 identificadores CVE. La historia es el patrón: entrada de agente no confiable que alcanza sinks de shell, red y archivos.
CVE-2026-45497: una inyección de comandos convierte a Microsoft 365 Copilot en una superficie de RCE
El 4 de junio de 2026 el MSRC publicó CVE-2026-45497, una inyección de comandos en Microsoft 365 Copilot calificada como ejecución remota de código, con un cambio de alcance que cruza la frontera del servicio. Corregida del lado del servidor.
Cuando un argumento de herramienta MCP se convierte en un intent de Android: los sinks de mobile-mcp
CVE-2026-35394 permite que una URL controlada por el modelo dispare intents de Android arbitrarios mediante la herramienta mobile_open_url de mobile-mcp. Junto a una CVE gemela de path traversal, revela un patrón: argumentos de herramientas MCP que llegan a sinks sin validación.
Gusanos autopropagables de agentes y la defensa por reentrada temporal
Un artículo de mayo de 2026 formaliza cómo el estado persistente de un agente permite que una carga de inyección se reescriba en el contexto del LLM, se propague entre agentes sin clics, y propone RTW-A, una defensa probada por un teorema de no propagación.
Tool poisoning en 7 clientes MCP: una comparativa de postura de seguridad
Un estudio empírico de marzo de 2026 prueba cuatro ataques de tool poisoning contra Claude Desktop, Claude Code, Cursor, Cline, Continue, Gemini CLI y Langflow — y concluye que la mayor parte de la protección proviene del modelo, no del cliente.
AIRQ evalúa 100 agentes de IA en producción: el 98 % acumula la tríada letal
El AI Risk Quadrant de Adversa AI (junio de 2026) puntúa 100 agentes comerciales por superficie de ataque, radio de impacto y defensas. Solo el 11 % está bien defendido; la ejecución de herramientas explica por sí sola el 76 % del radio de impacto.
CVE-2026-30615: una inyección de prompt reescribe la config MCP de Windsurf en RCE
El aviso de OX Security del 15 de abril de 2026 muestra cómo contenido controlado por el atacante puede hacer que el IDE Windsurf registre un servidor MCP STDIO malicioso y ejecute comandos — sin un solo clic. La clase abarca varios agentes de código, pero el CVE es para Windsurf.
La system card de Opus 4.8 cuantifica la inyección de prompts en el agente de navegador: 31,5 %
La system card de Claude Opus 4.8 (28 de mayo de 2026) reporta una tasa de secuestro pre-salvaguardas del 31,5 % para su agente de navegador — la única métrica de inyección de prompts publicada por un laboratorio frontera esta primavera.
Propagación de autorización: el hueco de seguridad de los agentes que la defensa anti-inyección no cerrará
Un artículo de Krti Tallam del 6 de mayo de 2026 describe un problema propio de los sistemas multiagente —la propagación de autorización— que persiste incluso con una defensa perfecta contra la inyección: delegación transitiva, inferencia por agregación, validez temporal.
ClawTrojan: la inyección almacenada se convierte en una puerta trasera persistente del agente
Un paper de arXiv del 29 de mayo de 2026 muestra que una inyección oculta en un archivo puede ser almacenada por un agente local y ejecutada después — 95,5 % de éxito frente a casi cero de la inyección de un solo turno.
Langroid SQLChatAgent: de la inyección prompt-a-SQL a la RCE (CVE-2026-25879)
Divulgada el 1 de junio de 2026, la CVE-2026-25879 (CVSS 9.8) permite que un agente SQL víctima de inyección de prompt ejecute primitivas como COPY FROM PROGRAM, convirtiendo un chatbot en ejecución de código en el host de la base de datos.
Bastaba con pedirlo: el asistente de IA de Meta y los secuestros de Instagram
El fin de semana del 30–31 de mayo de 2026, los atacantes secuestraron cuentas de Instagram de alto perfil simplemente pidiéndole al bot de soporte de IA de Meta que vinculara un nuevo correo. Sin inyección de prompt: solo agencia excesiva.
Agentes frágiles: la inyección indirecta sobrevive a las llamadas a herramientas multipaso
Un artículo del 4 de abril de 2026 prueba 6 defensas frente a 4 vectores de inyección indirecta en 9 modelos, en agentes multipaso — las inyecciones avanzadas eluden casi todas, y algunas mitigaciones superficiales resultan contraproducentes.
Deje de obsesionarse con el prompt: secuestrar el razonamiento y la memoria de un agente
Un artículo de abril de 2026, JailAgent, lleva a un agente a llamadas de herramienta maliciosas sin tocar el prompt del usuario, perturbando su traza de razonamiento y su recuperación de memoria. El prompt nunca fue toda la superficie de ataque.
Sampling de MCP: cómo un servidor malicioso abusa del canal LLM inverso
La función de sampling de MCP permite que un servidor pida una compleción al modelo del cliente. Unit 42 mostró (dic. 2025) cómo un servidor malicioso la convierte en llamadas a herramientas encubiertas, secuestro de conversación y robo de cómputo.
TrustFall: los ajustes MCP del proyecto convierten el clic de confianza en RCE
TrustFall (Adversa AI, 7 de mayo de 2026) demuestra que cuatro CLI de codificación agéntica arrancan automáticamente los servidores MCP definidos por el proyecto en cuanto el desarrollador acepta el aviso de confianza de la carpeta — una pulsación de tecla en el equipo, cero clics en CI.
Flowise CVE-2026-40933: importar un chatflow compartido basta para una RCE
El análisis de Obsidian Security del 28 de mayo de 2026 muestra cómo el nodo Custom MCP de Flowise convierte una configuración MCP stdio en ejecución de código en el servidor — y cómo el simple hecho de importar un chatflow compartido puede activarla, sin guardar ni ejecutar.
CrewAI: un repliegue silencioso del sandbox convierte la inyección de prompts en RCE (VU#221883)
Cuatro fallos de CrewAI permiten encadenar inyección de prompts, RCE, SSRF y lectura de archivos mediante un Code Interpreter que abandona Docker en silencio. La actualización del CERT/CC del 20 de mayo de 2026 confirma la corrección completa.
Ataques de agotamiento de tokens: denegación de servicio económica vía cadenas de herramientas de agentes
Dos artículos de 2026 muestran que una herramienta o skill maliciosa puede arrastrar a un agente LLM a largos bucles de llamadas a herramientas, multiplicando el coste en tokens de 6 a 658× mientras devuelve la respuesta correcta — una variante sigilosa del Unbounded Consumption de OWASP.
SymJack: una copia de archivo aprobada se convierte en RCE en seis agentes de codificación IA
Adversa AI publicó el 26 de mayo de 2026 un patrón de secuestro por enlace simbólico que transforma una orden de shell aparentemente inocua en sobrescritura de la configuración y RCE en el host, en Claude Code, Cursor, Gemini, Antigravity, Copilot, Grok Build y Codex CLI.
Blindfold: jailbreaks a nivel de acción que burlan las defensas semánticas de los LLM embebidos
Un artículo de SenSys '26 (11–14 de mayo de 2026) presenta Blindfold, un marco automatizado que jailbreakea LLM embebidos descomponiendo un objetivo dañino en acciones individualmente inocuas — hasta un 53 % más de éxito de ataque sobre un brazo robótico 6-DoF real.
MemMorph: secuestro de la selección de herramientas mediante envenenamiento fluido de la memoria
Un artículo de arXiv del 24 de mayo de 2026 (NTU Singapur) muestra que tres entradas plausibles en la memoria bastan para guiar a un agente hacia la herramienta elegida por el atacante con un 85,9 % de éxito — y sobreviven a tres defensas estándar.
Microsoft Copilot Cowork: skills envenenadas exfiltran archivos de M365 sin aprobación
Divulgación de PromptArmor del 26 de mayo de 2026: cinco líneas de inyección de prompt dentro de una skill de Copilot Cowork bastan para filtrar documentos de SharePoint y OneDrive vía mensajes de Teams auto-aprobados.
Contaminación temporal de memoria: deriva longitudinal de seguridad en agentes LLM
Tres preprints de arXiv de abril y mayo de 2026 convergen en un modo de fallo complementario al envenenamiento de memoria — los agentes con memoria derivan hacia lo inseguro a medida que se acumula contexto benigno, con los resúmenes comprimidos actuando como canal de blanqueo.
El harness del agente es tu frontera real de privilegios — y la mayoría de los equipos la dibuja en el lugar equivocado
Un análisis de Pillar Security del 26 de mayo de 2026 sostiene que el harness — Claude Code, Cursor, Codex — guarda los secretos, herramientas y hooks que el agente nunca ve. Los bugs recientes de harness y la CVE-2026-22708 lo demuestran.
Las redes de agentes fallan de otra forma: el red-team de Microsoft, más RAMPART y Clarity
Microsoft Research red-teameó una plataforma interna con más de 100 agentes siempre activos. Cuatro patrones de ataque — propagación, amplificación, captura de confianza, cadenas de proxy — solo aparecen a nivel de red. RAMPART y Clarity, liberados el 20 de mayo de 2026, son la respuesta.
Antigravity find_by_name: cuando una llamada a herramienta nativa salta por encima del Secure Mode
El 20 de abril de 2026, Pillar Security divulgó que un único parámetro sin sanear de la herramienta find_by_name de Google Antigravity convertía la búsqueda de archivos en ejecución de código arbitrario — y eludía el sandbox más estricto del IDE.
ClaudeBleed: cuando un agente de navegador confía en la extensión equivocada
LayerX reveló ClaudeBleed el 6 de mayo de 2026: un fallo de frontera de confianza permitía que cualquier extensión de Chrome controlara Claude in Chrome y exfiltrara datos de Gmail, Drive y GitHub. El primer parche fue eludido en pocas horas.
Transporte STDIO de MCP: la decisión de diseño que se convirtió en 11 CVE y 200 000 agentes expuestos
El 16 de abril de 2026, OX Security reveló que el transporte STDIO del MCP de Anthropic ejecuta cualquier comando que reciba. Anthropic lo calificó como «por diseño». La cascada ha producido once CVE en seis semanas.
Cuando los prompts se vuelven shells: de la inyección al RCE en frameworks de agentes
Dos CVE en Microsoft Semantic Kernel y cuatro en CrewAI — todos divulgados a comienzos de 2026 — convierten un único prompt inyectado en ejecución remota de código sobre el host. El patrón es estructural, no accidental.
Envenenar una vez, explotar para siempre: envenenamiento persistente de la memoria de los agentes LLM (OWASP ASI06)
Un paper de arXiv de abril de 2026 sobre memory poisoning entre sitios y un post de OWASP del 13 de mayo de 2026 sobre el hallazgo MemoryTrap de Cisco contra Claude Code convergen en la misma lección: la memoria del agente es una frontera de confianza.
Asegurar los agentes IA como sistemas operativos: el plano del CISPA
Un artículo del CISPA publicado el 14 de mayo de 2026 traslada décadas de seguridad de SO a los agentes LLM. Probado en cuatro agentes tipo OpenClaw, dos clases de debilidades — exfiltración entre usuarios y salida de red no autorizada — fallan en todos los sistemas.
La Tríada Letal: cuando un agente lee datos privados, contenido no confiable y puede llamar fuera
El marco de Simon Willison para el único error arquitectónico que convirtió la oleada de exfiltraciones de agentes de IA de 2026 en una clase de vulnerabilidad, no en una coincidencia.
Vulnerabilidades de back-end en MCP: fallos clásicos reaparecen en los puentes IA-bases de datos
La investigación de Akamai del 12 de mayo de 2026 detalla una inyección SQL (CVE-2025-66335), falta de autenticación y entradas sin sanear en tres servidores MCP — Apache Doris, Apache Pinot y Alibaba RDS. El patrón, más que los bugs, es la enseñanza.
Semantic Kernel: cuando un prompt se convierte en shell (CVE-2026-25592, CVE-2026-26030)
Microsoft divulgó el 7 de mayo de 2026 dos vulnerabilidades críticas en Semantic Kernel que convierten un único prompt inyectado en ejecución de código a nivel de host. La causa raíz es arquitectónica: el registro de herramientas y eval() se trataron como comodidades, no como fronteras de seguridad.
Trust No Tool: envenenamiento cognitivo de agentes LLM vía la retroalimentación de herramientas
Un artículo de arXiv del 17 de mayo de 2026 introduce el «envenenamiento cognitivo»: una herramienta maliciosa que se gana la confianza del agente durante muchas interacciones benignas y solo arma la acción final. El objetivo de defensa se desplaza del prompt a la trayectoria.
CVE-2026-35435: los agentes M365 publicados desde Azure AI Foundry confiaron en quien no debían
Divulgada el 7 de mayo de 2026 (CVSS 8.6), una falla de control de acceso en Azure AI Foundry permite a atacantes no autorizados elevar privilegios a través de los agentes publicados en M365. Microsoft reporta explotación activa; hay mitigaciones disponibles antes del parche.
Azure SRE Agent: una verificación de token multi-tenant permitía que extraños observaran sus incidentes (CVE-2026-32173)
Divulgada el 20 de abril de 2026, una mala configuración de app registration en Entra ID sobre el WebSocket /agentHub de Azure SRE Agent permitía a cualquier tenant conectarse y escuchar cada prompt, razonamiento, comando CLI y credencial — en silencio.
Claw Chain: cuatro CVE de OpenClaw que convierten al agente de IA en las manos del atacante
Divulgada el 15 de mayo de 2026, la Claw Chain de Cyera Research encadena cuatro fallos parcheados de OpenClaw — escape de sandbox, fuga de variables de entorno, elevación de privilegios MCP, lectura por symlink — en una toma de control completa del host vía el propio agente.
Comment and Control: un mismo patrón de inyección de prompt, tres agentes filtrando secretos de GitHub Actions
Divulgada el 15 de abril de 2026, la técnica Comment and Control convierte títulos de PR, comentarios de issues y comentarios HTML en canales de exfiltración de credenciales en Claude Code, Gemini CLI y GitHub Copilot Agent.
PraisonAI CVE-2026-44338: un servidor de agentes sin autenticación, explotado en 3h44
Divulgada el 11 de mayo de 2026, CVE-2026-44338 entrega PraisonAI con la autenticación desactivada en duro en su antiguo servidor API. Un escáner CVE-Detector sondeó el endpoint menos de cuatro horas después.
Secuestro de agentes en localhost: ataques WebSocket cross-origin a agentes de código IA
CVE-2026-44211 (CVSS 9.7), divulgada el 7 de mayo de 2026, demuestra cómo una sola visita a una página maliciosa puede secuestrar un agente de código IA que se ejecuta en el portátil de una persona desarrolladora. La clase de ataque es genérica — y arquitectónica.
Prompts como shells: cuando la inyección de prompt se convierte en RCE en frameworks de agentes
Dos CVE divulgadas en Microsoft Semantic Kernel el 7 de mayo de 2026 (CVE-2026-25592, CVE-2026-26030) muestran cómo un único prompt inyectado puede pasar del texto a la ejecución remota de código en el host del agente.