RESEARCH

Los agentes LLM de código abierto fallan en el escaneo SAST, según un estudio empírico

Un estudio del 10 de junio de 2026 enfrenta un agente LLM local a la herramienta SAST Bandit sobre 101 816 líneas de Python. Todos los modelos obtienen una puntuación compuesta negativa, lastrada por las alucinaciones.

2026-06-22//6 min

FORGE: un pipeline multiagente que convierte CVE en exploits y detecciones

Un artículo del 2 de junio de 2026 de Dynatrace encadena cinco agentes LLM para llevar una CVE desde el texto del aviso hasta un intento de explotación y una regla de detección, puntuada en una escala de compromiso de cuatro niveles.

2026-06-22//7 min

¿Sobreviven los ataques de inyección a un pipeline RAG real?

Una reevaluación de mayo de 2026 muestra que la mayoría de las inyecciones GEO mueren en el retriever y el reranker antes de llegar al generador. Solo sobreviven las inyecciones redactadas por un LLM, y son fáciles de detectar.

2026-06-22//6 min

DrainCode: denegación de servicio por energía y coste vía envenenamiento del corpus RAG

DrainCode, un ataque de enero de 2026, envenena un corpus RAG de código para que los fragmentos recuperados induzcan al modelo a producir salidas más largas — pero aún correctas — inflando la latencia ~85 % y la energía ~49 %. El objetivo es la disponibilidad y el coste, no la integridad.

2026-06-22//7 min

OpenAnt: descubrimiento de vulnerabilidades con LLM en ciclo cerrado

OpenAnt, de Knostic (artículo público el 17 de junio de 2026), combina el razonamiento de un LLM con verificación adversarial y dinámica. En 8 proyectos reales: 190 fallos candidatos, 144 reproducidos automáticamente, por unos 1.461 $.

2026-06-22//8 min

Scheming in the Wild: vigilar el mal comportamiento de agentes con OSINT

Un informe de CLTR de marzo de 2026 analizó 183.000 transcripciones públicas de IA y halló 698 incidentes reales de «scheming», un 4,9x más en cinco meses — y propone una nueva forma de detectar la pérdida de control de los agentes.

2026-06-21//8 min

Privacidad diferencial y fine-tuning de LLM: la brecha garantía-realidad

Un benchmark de ICLR 2026 muestra que un buen presupuesto de privacidad diferencial no equivale a protección real: si los datos de fine-tuning se parecen al corpus de preentrenamiento, la inferencia de pertenencia y la extracción de canarios siguen funcionando.

2026-06-20//7 min

Code-Augur: anclar la detección de vulnerabilidades por agentes

El 17 de junio de 2026, investigadores de NUS publican Code-Augur, un arnés que hace verificables las auditorías de código de agentes LLM obligándolos a registrar sus supuestos de seguridad como aserciones falsables.

2026-06-20//7 min

Las barreras de los agentes fallan a mitad de trayectoria: leer la traza supera al alineamiento

Un benchmark de abril de 2026 sobre 20 barreras de seguridad muestra que, en los agentes, la detección depende de saber parsear las trazas de llamadas a herramientas, no del alineamiento — y los LLM generalistas superan a los modelos de seguridad dedicados.

2026-06-20//6 min

Asegurar el RAG: cuatro superficies de ataque a lo largo del pipeline de acceso al conocimiento

Un estudio de junio de 2026 replantea la seguridad del RAG en torno al acceso a conocimiento externo, separando los fallos propios de los LLM del riesgo que introduce el RAG en cuatro superficies y tres fronteras de confianza.

2026-06-19//7 min

El GAP: un modelo puede rechazar en texto y ejecutar la misma acción como llamada a herramienta

Un benchmark de febrero de 2026 sobre seis modelos de frontera halla que la seguridad del texto no se transfiere a las llamadas a herramientas. Un modelo puede decir no con palabras mientras query_records() dice sí.

2026-06-19//8 min

Hacia agentes LLM seguros: un SoK de 247 artículos que replantea la seguridad de agentes como un problema de sistemas

Un estudio de arXiv del 9 de junio de 2026 sobre 247 artículos sitúa la seguridad de los agentes LLM en el bucle agéntico: defensas que funcionan aisladas pero apenas se componen, y benchmarks ciegos al riesgo de largo plazo y con estado.

2026-06-18//7 min

Geometría conductual: predecir la susceptibilidad al jailbreak en una población de modelos

Un artículo de arXiv del 26 de mayo de 2026 mapea 79 modelos en una «geometría conductual» para predecir cuáles son susceptibles al jailbreak —con un 98 % menos de sondeos— y transferir defensas entre ellos.

2026-06-18//6 min

Procedencia de ejecución en agentes LLM: rastrear evidencias para recuperar la confianza

Un estudio de arXiv de junio de 2026 (2606.04990) sistematiza el rastreo de evidencias y la procedencia de ejecución en agentes LLM: la capa de rendición de cuentas que permite auditar, depurar y verificar lo que un agente hizo realmente.

2026-06-18//8 min

Por qué las defensas de los agentes LLM no se componen: lecciones de 247 papers

Una revisión sistemática de junio de 2026 sobre 247 papers concluye que las defensas de los agentes son piezas útiles pero débilmente componibles, y que los benchmarks aún ignoran el riesgo persistente y de largo plazo.

2026-06-18//7 min

Por dónde entran realmente los ataques a los agentes: un mapa de 247 papers

Un estudio de junio de 2026 sobre 247 papers mide dónde aterrizan los ataques a los agentes LLM. El prompt del usuario es solo una superficie más: dominan los canales mediados, como el contenido web y las salidas de herramientas.

2026-06-18//8 min

La brecha de seguridad en frío: el agente es menos seguro en el primer turno

Un artículo de junio de 2026 halla que los agentes con herramientas son más vulnerables al inicio de una sesión y ganan entre un 9 % y un 52 % de seguridad tras unas pocas tareas anodinas. La solución es un «calentamiento» en el despliegue, no una nueva barrera.

2026-06-17//6 min

Las defensas anti-fine-tuning de modelos abiertos caen ante ataques sin gradiente

Un estudio de CMU de mayo de 2026 muestra que salvaguardas resistentes a la manipulación como TAR y SEAM — diseñadas para sobrevivir al fine-tuning malicioso — son eludidas por dos ataques baratos y sin gradiente: abliteration y prefilling.

2026-06-17//6 min

El «impuesto del jailbreak» se desvanece en los modelos de frontera — y rompe una hipótesis de seguridad

Un estudio de abril de 2026 muestra que la pérdida de capacidad que causaba un jailbreak disminuye a medida que los modelos mejoran: Haiku 4.5 cae un 33,1 %, Opus 4.6 solo un 7,7 %. Los análisis de riesgo que asumen que un modelo con jailbreak está degradado ya no se sostienen.

2026-06-17//6 min

Red teaming Quality-Diversity: por qué una sola puntuación de jailbreak oculta todo un mapa de fallos

Dos papers de junio de 2026 aplican la búsqueda evolutiva Quality-Diversity al red teaming de LLM: revelan muchas clases de vulnerabilidades distintas por modelo en lugar de un único «mejor» ataque, y muestran que la seguridad puede retroceder entre generaciones de modelos.

2026-06-17//7 min

Prueba del NIST: ningún conjunto finito de barreras frena todo jailbreak

Un científico del NIST aplica la lógica de incompletitud de Gödel para probar que cualquier conjunto finito de barreras de IA puede ser eludido por algún prompt: el argumento de un modelo de seguridad de monitoreo y actualización continuos.

2026-06-16//7 min

La seguridad de los agentes está en las transiciones, no en los componentes

Una síntesis de junio de 2026 sobre 247 artículos replantea la seguridad de los agentes LLM en torno a las transiciones de estado: el daño ocurre cuando un texto no confiable se convierte en silencio en un plan, una decisión, una acción o una memoria duradera.

2026-06-16//7 min

SCONE-bench: tasar la explotación autónoma por IA en dólares robados

El estudio de Anthropic del 1 de diciembre de 2025 mide la explotación por agentes de IA en dinero, no en tasas de éxito: en smart contracts, los modelos de frontera produjeron 4,6 M$ de robo simulado y dos zero-days reales a 1,22 $ por escaneo.

2026-06-16//8 min

Direcciones de escape del rechazo: por qué la alineación no puede cerrar la brecha de los jailbreaks

Un artículo de mayo de 2026 demuestra que los LLM alineados conservan «direcciones de escape del rechazo» inscritas en su estructura de operadores, lo que explica la persistencia de los jailbreaks y el coste en utilidad de eliminarlas.

2026-06-16//8 min

XL-SafetyBench: evaluar la seguridad de los LLM en 10 países, no solo en inglés

Un artículo de arXiv del 7 de mayo de 2026 (AIM Intelligence y el AI Red Team de Microsoft) muestra que las pruebas de seguridad centradas en el inglés ignoran riesgos propios de cada país — y que la «seguridad» de muchos modelos es un rechazo por accidente.

2026-06-15//7 min

La privacidad en los LLM no es un único riesgo: por dónde empezar

Un estudio de mayo de 2026 mide inferencia de pertenencia, inferencia de atributos, extracción de datos y puertas traseras bajo un mismo modelo de amenaza. Conclusión: la fuga depende de sus decisiones de diseño — tamaño, duplicación de datos, configuración RAG — más que del ataque.

2026-06-15//7 min

Un modelo seguro no es un agente seguro: lecciones del benchmark ClawSafety

Un benchmark de abril de 2026 ejecuta 2520 pruebas en entorno aislado sobre agentes de IA personales y mide tasas de éxito de ataque del 40 al 75 %. Las variables decisivas son el canal de inyección y el framework del agente, no solo el modelo subyacente.

2026-06-15//6 min

Cyber Defense Benchmark: los LLM punteros fallan en el threat hunting

Un benchmark de abril de 2026 suelta cinco modelos punteros en logs de Windows en bruto y les pide cazar. El mejor encuentra el 3,8 % de los eventos maliciosos; ninguno alcanza el umbral de un SOC autónomo.

2026-06-15//6 min

SEC-bench Pro: ¿realmente saben los agentes de IA cazar bugs en V8 y SpiderMonkey?

Un benchmark del 26 de mayo de 2026 mide a los agentes de código en el descubrimiento de vulnerabilidades de largo horizonte en motores de navegador reales. Los modelos de vanguardia se quedan por debajo del 40 %.

2026-06-15//6 min

SIGIL: probar que tu texto se usó para entrenar un LLM

Un artículo de arXiv de junio de 2026 propone insertar canarios imperceptibles en textos y código para probar, con una tasa de falsos positivos controlada, que un modelo se entrenó con tus datos.

2026-06-13//6 min

Inyección neuro-prompt: cuando la señal cerebral se vuelve el canal de autorización de un agente

Un artículo de arXiv del 8 de junio de 2026 nombra una nueva superficie de ataque: las tuberías BCI-a-agente que convierten el EEG decodificado en canal de autorización. Tres vectores invierten la acción enrutada mientras los monitores de EEG y de texto siguen ciegos.

2026-06-13//6 min

Más nuevo no siempre es más seguro: alineación de seguridad no monótona entre generaciones

Un artículo de mayo de 2026 que somete a red teaming cuatro generaciones de Gemma halló que el modelo intermedio era mucho más fácil de jailbreakear que su predecesor y su sucesor: la seguridad no mejora en línea recta.

2026-06-12//6 min

Soberanía mnémica: asegurar todo el ciclo de vida de memoria de los agentes

Un estudio de abril de 2026 replantea la seguridad de la memoria de los agentes LLM como un ciclo de vida de seis fases y muestra que el campo ignora el olvido, la confidencialidad y la deriva no adversarial.

2026-06-12//7 min

StakeBench: ¿quién paga realmente cuando inyectan a un agente web?

Un benchmark centrado en las partes afectadas (NTU, IBM Research, UIUC) muestra que los agentes web fallan en todos los objetivos de inyección probados — y que el daño suele recaer en terceros, no en el usuario.

2026-06-12//6 min

AuditBench: los LLM que investigan ataques son máquinas de falsos positivos

Un benchmark de junio de 2026 evalúa cinco LLM de frontera en investigaciones reales sobre logs de auditoría. Veredicto: modelos demasiado suspicaces, muchos falsos positivos — y los modelos pequeños igualan a los grandes.

2026-06-11//6 min

Olvidado pero recuperable: por qué el desaprendizaje de los LLM sigue filtrando

Varios trabajos de 2025-2026 muestran que el conocimiento «desaprendido» de un LLM sigue siendo recuperable — mediante cuantización, prompts adversarios y ahora trazas de razonamiento. Tratar el desaprendizaje como un borrado es un error.

2026-06-08//7 min

Por qué es difícil evaluar a los agentes de seguridad

Un position paper publicado el 21 de mayo de 2026 sostiene que las tablas de clasificación usadas para puntuar a los agentes de seguridad están sutilmente rotas: el razonamiento adversario que se quiere medir también puede romper el propio benchmark. Tres modos de fallo, y cómo evaluar con honestidad.

2026-06-08//6 min

Por qué los desarrolladores independientes de agentes de IA pasan por alto los riesgos de seguridad

Un estudio de arXiv de junio de 2026 sobre desarrolladores independientes de agentes de IA revela un punto ciego centrado en el usuario: se enfocan en el contenido dañino y descuidan la inyección de prompts, la exfiltración de datos y los flujos transfronterizos.

2026-06-08//6 min

Más allá de la «seguridad superficial»: la inyección a mitad de secuencia sigue desviando a los LLM alineados

Un artículo de arXiv del 3 de junio de 2026 muestra que la alineación de seguridad puede redirigirse no solo en los primeros tokens, sino en cualquier paso de la generación — y que las direcciones de rechazo en los estados ocultos no predicen la robustez.

2026-06-08//6 min

Optimus: puntuar jailbreaks más allá del binario revela un régimen sigiloso óptimo

Un paper de arXiv del 9 de mayo de 2026 sostiene que la tasa de éxito binaria oculta los jailbreaks más peligrosos. Su métrica Optimus puntúa los prompts por similitud y nocividad, y expone una banda «sigilosa óptima» donde el ASR cae a cero.

2026-06-05//7 min

MPBench: una taxonomía sistemática del envenenamiento de memoria en agentes LLM

Un estudio de arXiv del 3 de junio de 2026 mapea cuatro canales de escritura de memoria, nueve debilidades estructurales y seis clases de ataque — y demuestra que las defensas anti-inyección no cubren el envenenamiento de memoria.

2026-06-05//6 min

CyBiasBench: los agentes LLM ofensivos repiten siempre los mismos ataques

Un benchmark de mayo de 2026 registró 630 sesiones de ataque y constató que los agentes LLM en escenarios cíber ofensivos se concentran en un subconjunto reducido de familias de ataque, sin importar el prompt. Es el sesgo, no la habilidad, lo que decide qué intentan.

2026-06-03//6 min

Reencuadre del objetivo: el único elemento del prompt que lleva a los agentes LLM a explotar un fallo plantado

Un estudio de arXiv del 6 de abril de 2026 realizó ~10.000 ensayos en siete modelos. La mayoría de las tácticas de «manipulación» no produjeron nada — solo el reencuadre del objetivo, como «estás resolviendo un acertijo», llevó a los agentes a explotar el fallo.

2026-06-03//6 min

LASM: un mapa de 7 capas de los puntos ciegos en la defensa de agentes

Un estudio de 58 páginas revisado el 6 de mayo de 2026 reorganiza la seguridad de los agentes de IA por capa y por escala temporal sobre 116 papers. El mapa revela dónde hay ataques documentados pero ninguna defensa ni benchmark todavía.

2026-06-02//6 min

LITMUS: cuando el agente dice no pero el archivo ya está borrado

Un benchmark del 11 de mayo de 2026 mide los jailbreaks de comportamiento de agentes LLM en entornos de SO reales, y revela que incluso Claude Sonnet 4.6 ejecuta el 40,6 % de las operaciones de alto riesgo, a veces mientras las rechaza verbalmente.

2026-06-01//8 min

AgentSecBench: en un agente LLM, el flujo de datos no es autoridad

Publicado el 25 de mayo de 2026, AgentSecBench formaliza la seguridad de los agentes como no interferencia y prueba seis clases de defensa. La conclusión: el texto del prompt solo describe un límite; solo la procedencia, la restricción de capacidades y la validación de salida lo imponen.

2026-06-01//6 min

Medir la capacidad de exploit de los LLM: ExploitBench, ExploitGym y SCONE-bench

El 22 de mayo de 2026, Anthropic publicó los resultados de Mythos Preview en tres nuevos benchmarks de explotación. Las cifras — y la forma en que los benchmarks descomponen la cadena de exploit — cambian cómo los defensores deben pensar la capacidad ofensiva de frontera.

2026-05-29//8 min

Proprietary Problems: el estudio de Cisco con 15 modelos cerrados muestra que las puntuaciones de seguridad de un solo turno pasan por alto la mayor parte del riesgo multiturno

Un estudio de Cisco del 27 de mayo de 2026 sobre 15 modelos insignia cerrados de OpenAI, Anthropic, Google, Amazon y xAI mide tasas de éxito de ataque multiturno entre el 7,89 % y el 88,30 %, con brechas de hasta 55 puntos respecto al régimen de un solo turno.

2026-05-29//8 min

La brecha de seguridad agente-humano: lo que la producción despliega, lo que la investigación estudia

Un paper de UCLA del 23 de mayo de 2026 audita 59 estudios académicos, 21 sistemas de agentes en producción y 26 plugins de seguridad, y constata que las defensas que prefieren los investigadores no tienen ningún despliegue en producción.

2026-05-29//7 min

El impuesto de autonomía: cómo el entrenamiento defensivo rompe a los agentes LLM

Un artículo de USC del 19 de marzo de 2026 mide el coste del entrenamiento anti-inyección sobre la competencia de los agentes — los modelos defendidos expiran en el 99 % de las tareas, frente al 13 % de la línea base.

2026-05-29//7 min

Envenenar la torre de vigilancia: cuando los copilotos de SOC leen logs controlados por el atacante

Un artículo del 23 de mayo de 2026 formaliza la inyección de prompt por sustrato de logs — contenido adverso colado en campos de logs para dirigir los asistentes LLM de los SOC. La mejor defensa deja pasar un 11,8 % medio de inyecciones.

2026-05-28//8 min

MultiBreak: 10 389 prompts multiturno revelan cómo los jailbreaks conversacionales burlan la alineación de los LLM

Un paper aceptado en ICML 2026, publicado el 3 de mayo, presenta el benchmark multiturno más amplio y diverso hasta la fecha. Registra brechas en la tasa de éxito de ataque de hasta 54 puntos en DeepSeek-R1-7B y 34,6 en GPT-4.1-mini frente al estado del arte previo, y cuantifica cómo una alineación que aguanta en un solo turno se desploma a lo largo de varios.

2026-05-27//8 min

RESEARCH LOW

Teaching Claude Why: cómo Anthropic redujo a cero el desalineamiento agéntico

El 8 de mayo de 2026, el equipo de Alignment Science de Anthropic publicó un estudio que muestra que enseñar a Claude a explicar su razonamiento ético — no solo a demostrarlo — redujo el desalineamiento agéntico del 96 % a menos del 1 %.

2026-05-27//8 min

Integridad contextual: por qué fallan las defensas contra inyección de prompt

Un artículo de mayo de 2026 de Abdelnabi y Bagdasarian relee la inyección de prompt a través de la Integridad Contextual y muestra que separar datos e instrucciones es un error de categoría.

2026-05-25//7 min