RESEARCH
(57)57 hack(s).
Confusión de rol: por qué los LLM obedecen al texto que «suena» con autoridad
Un nuevo artículo de ICML 2026 del MIT sostiene que la inyección de prompts es en realidad «confusión de rol»: el modelo deduce quién habla por el estilo del texto, no por su origen. El razonamiento falsificado alcanzó ~60 % de éxito, y una reescritura casi invisible lo redujo al 10 %.
Los agentes LLM de código abierto fallan en el escaneo SAST, según un estudio empírico
Un estudio del 10 de junio de 2026 enfrenta un agente LLM local a la herramienta SAST Bandit sobre 101 816 líneas de Python. Todos los modelos obtienen una puntuación compuesta negativa, lastrada por las alucinaciones.
FORGE: un pipeline multiagente que convierte CVE en exploits y detecciones
Un artículo del 2 de junio de 2026 de Dynatrace encadena cinco agentes LLM para llevar una CVE desde el texto del aviso hasta un intento de explotación y una regla de detección, puntuada en una escala de compromiso de cuatro niveles.
¿Sobreviven los ataques de inyección a un pipeline RAG real?
Una reevaluación de mayo de 2026 muestra que la mayoría de las inyecciones GEO mueren en el retriever y el reranker antes de llegar al generador. Solo sobreviven las inyecciones redactadas por un LLM, y son fáciles de detectar.
DrainCode: denegación de servicio por energía y coste vía envenenamiento del corpus RAG
DrainCode, un ataque de enero de 2026, envenena un corpus RAG de código para que los fragmentos recuperados induzcan al modelo a producir salidas más largas — pero aún correctas — inflando la latencia ~85 % y la energía ~49 %. El objetivo es la disponibilidad y el coste, no la integridad.
OpenAnt: descubrimiento de vulnerabilidades con LLM en ciclo cerrado
OpenAnt, de Knostic (artículo público el 17 de junio de 2026), combina el razonamiento de un LLM con verificación adversarial y dinámica. En 8 proyectos reales: 190 fallos candidatos, 144 reproducidos automáticamente, por unos 1.461 $.
Scheming in the Wild: vigilar el mal comportamiento de agentes con OSINT
Un informe de CLTR de marzo de 2026 analizó 183.000 transcripciones públicas de IA y halló 698 incidentes reales de «scheming», un 4,9x más en cinco meses — y propone una nueva forma de detectar la pérdida de control de los agentes.
Privacidad diferencial y fine-tuning de LLM: la brecha garantía-realidad
Un benchmark de ICLR 2026 muestra que un buen presupuesto de privacidad diferencial no equivale a protección real: si los datos de fine-tuning se parecen al corpus de preentrenamiento, la inferencia de pertenencia y la extracción de canarios siguen funcionando.
Code-Augur: anclar la detección de vulnerabilidades por agentes
El 17 de junio de 2026, investigadores de NUS publican Code-Augur, un arnés que hace verificables las auditorías de código de agentes LLM obligándolos a registrar sus supuestos de seguridad como aserciones falsables.
Las barreras de los agentes fallan a mitad de trayectoria: leer la traza supera al alineamiento
Un benchmark de abril de 2026 sobre 20 barreras de seguridad muestra que, en los agentes, la detección depende de saber parsear las trazas de llamadas a herramientas, no del alineamiento — y los LLM generalistas superan a los modelos de seguridad dedicados.
Asegurar el RAG: cuatro superficies de ataque a lo largo del pipeline de acceso al conocimiento
Un estudio de junio de 2026 replantea la seguridad del RAG en torno al acceso a conocimiento externo, separando los fallos propios de los LLM del riesgo que introduce el RAG en cuatro superficies y tres fronteras de confianza.
El GAP: un modelo puede rechazar en texto y ejecutar la misma acción como llamada a herramienta
Un benchmark de febrero de 2026 sobre seis modelos de frontera halla que la seguridad del texto no se transfiere a las llamadas a herramientas. Un modelo puede decir no con palabras mientras query_records() dice sí.
Hacia agentes LLM seguros: un SoK de 247 artículos que replantea la seguridad de agentes como un problema de sistemas
Un estudio de arXiv del 9 de junio de 2026 sobre 247 artículos sitúa la seguridad de los agentes LLM en el bucle agéntico: defensas que funcionan aisladas pero apenas se componen, y benchmarks ciegos al riesgo de largo plazo y con estado.
Geometría conductual: predecir la susceptibilidad al jailbreak en una población de modelos
Un artículo de arXiv del 26 de mayo de 2026 mapea 79 modelos en una «geometría conductual» para predecir cuáles son susceptibles al jailbreak —con un 98 % menos de sondeos— y transferir defensas entre ellos.
Procedencia de ejecución en agentes LLM: rastrear evidencias para recuperar la confianza
Un estudio de arXiv de junio de 2026 (2606.04990) sistematiza el rastreo de evidencias y la procedencia de ejecución en agentes LLM: la capa de rendición de cuentas que permite auditar, depurar y verificar lo que un agente hizo realmente.
Por qué las defensas de los agentes LLM no se componen: lecciones de 247 papers
Una revisión sistemática de junio de 2026 sobre 247 papers concluye que las defensas de los agentes son piezas útiles pero débilmente componibles, y que los benchmarks aún ignoran el riesgo persistente y de largo plazo.
Por dónde entran realmente los ataques a los agentes: un mapa de 247 papers
Un estudio de junio de 2026 sobre 247 papers mide dónde aterrizan los ataques a los agentes LLM. El prompt del usuario es solo una superficie más: dominan los canales mediados, como el contenido web y las salidas de herramientas.
La brecha de seguridad en frío: el agente es menos seguro en el primer turno
Un artículo de junio de 2026 halla que los agentes con herramientas son más vulnerables al inicio de una sesión y ganan entre un 9 % y un 52 % de seguridad tras unas pocas tareas anodinas. La solución es un «calentamiento» en el despliegue, no una nueva barrera.
Las defensas anti-fine-tuning de modelos abiertos caen ante ataques sin gradiente
Un estudio de CMU de mayo de 2026 muestra que salvaguardas resistentes a la manipulación como TAR y SEAM — diseñadas para sobrevivir al fine-tuning malicioso — son eludidas por dos ataques baratos y sin gradiente: abliteration y prefilling.
El «impuesto del jailbreak» se desvanece en los modelos de frontera — y rompe una hipótesis de seguridad
Un estudio de abril de 2026 muestra que la pérdida de capacidad que causaba un jailbreak disminuye a medida que los modelos mejoran: Haiku 4.5 cae un 33,1 %, Opus 4.6 solo un 7,7 %. Los análisis de riesgo que asumen que un modelo con jailbreak está degradado ya no se sostienen.
Red teaming Quality-Diversity: por qué una sola puntuación de jailbreak oculta todo un mapa de fallos
Dos papers de junio de 2026 aplican la búsqueda evolutiva Quality-Diversity al red teaming de LLM: revelan muchas clases de vulnerabilidades distintas por modelo en lugar de un único «mejor» ataque, y muestran que la seguridad puede retroceder entre generaciones de modelos.
Prueba del NIST: ningún conjunto finito de barreras frena todo jailbreak
Un científico del NIST aplica la lógica de incompletitud de Gödel para probar que cualquier conjunto finito de barreras de IA puede ser eludido por algún prompt: el argumento de un modelo de seguridad de monitoreo y actualización continuos.
La seguridad de los agentes está en las transiciones, no en los componentes
Una síntesis de junio de 2026 sobre 247 artículos replantea la seguridad de los agentes LLM en torno a las transiciones de estado: el daño ocurre cuando un texto no confiable se convierte en silencio en un plan, una decisión, una acción o una memoria duradera.
SCONE-bench: tasar la explotación autónoma por IA en dólares robados
El estudio de Anthropic del 1 de diciembre de 2025 mide la explotación por agentes de IA en dinero, no en tasas de éxito: en smart contracts, los modelos de frontera produjeron 4,6 M$ de robo simulado y dos zero-days reales a 1,22 $ por escaneo.
Direcciones de escape del rechazo: por qué la alineación no puede cerrar la brecha de los jailbreaks
Un artículo de mayo de 2026 demuestra que los LLM alineados conservan «direcciones de escape del rechazo» inscritas en su estructura de operadores, lo que explica la persistencia de los jailbreaks y el coste en utilidad de eliminarlas.
XL-SafetyBench: evaluar la seguridad de los LLM en 10 países, no solo en inglés
Un artículo de arXiv del 7 de mayo de 2026 (AIM Intelligence y el AI Red Team de Microsoft) muestra que las pruebas de seguridad centradas en el inglés ignoran riesgos propios de cada país — y que la «seguridad» de muchos modelos es un rechazo por accidente.
La privacidad en los LLM no es un único riesgo: por dónde empezar
Un estudio de mayo de 2026 mide inferencia de pertenencia, inferencia de atributos, extracción de datos y puertas traseras bajo un mismo modelo de amenaza. Conclusión: la fuga depende de sus decisiones de diseño — tamaño, duplicación de datos, configuración RAG — más que del ataque.
Un modelo seguro no es un agente seguro: lecciones del benchmark ClawSafety
Un benchmark de abril de 2026 ejecuta 2520 pruebas en entorno aislado sobre agentes de IA personales y mide tasas de éxito de ataque del 40 al 75 %. Las variables decisivas son el canal de inyección y el framework del agente, no solo el modelo subyacente.
Cyber Defense Benchmark: los LLM punteros fallan en el threat hunting
Un benchmark de abril de 2026 suelta cinco modelos punteros en logs de Windows en bruto y les pide cazar. El mejor encuentra el 3,8 % de los eventos maliciosos; ninguno alcanza el umbral de un SOC autónomo.
SEC-bench Pro: ¿realmente saben los agentes de IA cazar bugs en V8 y SpiderMonkey?
Un benchmark del 26 de mayo de 2026 mide a los agentes de código en el descubrimiento de vulnerabilidades de largo horizonte en motores de navegador reales. Los modelos de vanguardia se quedan por debajo del 40 %.
SIGIL: probar que tu texto se usó para entrenar un LLM
Un artículo de arXiv de junio de 2026 propone insertar canarios imperceptibles en textos y código para probar, con una tasa de falsos positivos controlada, que un modelo se entrenó con tus datos.
Inyección neuro-prompt: cuando la señal cerebral se vuelve el canal de autorización de un agente
Un artículo de arXiv del 8 de junio de 2026 nombra una nueva superficie de ataque: las tuberías BCI-a-agente que convierten el EEG decodificado en canal de autorización. Tres vectores invierten la acción enrutada mientras los monitores de EEG y de texto siguen ciegos.
Más nuevo no siempre es más seguro: alineación de seguridad no monótona entre generaciones
Un artículo de mayo de 2026 que somete a red teaming cuatro generaciones de Gemma halló que el modelo intermedio era mucho más fácil de jailbreakear que su predecesor y su sucesor: la seguridad no mejora en línea recta.
Soberanía mnémica: asegurar todo el ciclo de vida de memoria de los agentes
Un estudio de abril de 2026 replantea la seguridad de la memoria de los agentes LLM como un ciclo de vida de seis fases y muestra que el campo ignora el olvido, la confidencialidad y la deriva no adversarial.
StakeBench: ¿quién paga realmente cuando inyectan a un agente web?
Un benchmark centrado en las partes afectadas (NTU, IBM Research, UIUC) muestra que los agentes web fallan en todos los objetivos de inyección probados — y que el daño suele recaer en terceros, no en el usuario.
AuditBench: los LLM que investigan ataques son máquinas de falsos positivos
Un benchmark de junio de 2026 evalúa cinco LLM de frontera en investigaciones reales sobre logs de auditoría. Veredicto: modelos demasiado suspicaces, muchos falsos positivos — y los modelos pequeños igualan a los grandes.
Olvidado pero recuperable: por qué el desaprendizaje de los LLM sigue filtrando
Varios trabajos de 2025-2026 muestran que el conocimiento «desaprendido» de un LLM sigue siendo recuperable — mediante cuantización, prompts adversarios y ahora trazas de razonamiento. Tratar el desaprendizaje como un borrado es un error.
Por qué es difícil evaluar a los agentes de seguridad
Un position paper publicado el 21 de mayo de 2026 sostiene que las tablas de clasificación usadas para puntuar a los agentes de seguridad están sutilmente rotas: el razonamiento adversario que se quiere medir también puede romper el propio benchmark. Tres modos de fallo, y cómo evaluar con honestidad.
Por qué los desarrolladores independientes de agentes de IA pasan por alto los riesgos de seguridad
Un estudio de arXiv de junio de 2026 sobre desarrolladores independientes de agentes de IA revela un punto ciego centrado en el usuario: se enfocan en el contenido dañino y descuidan la inyección de prompts, la exfiltración de datos y los flujos transfronterizos.
Más allá de la «seguridad superficial»: la inyección a mitad de secuencia sigue desviando a los LLM alineados
Un artículo de arXiv del 3 de junio de 2026 muestra que la alineación de seguridad puede redirigirse no solo en los primeros tokens, sino en cualquier paso de la generación — y que las direcciones de rechazo en los estados ocultos no predicen la robustez.
Optimus: puntuar jailbreaks más allá del binario revela un régimen sigiloso óptimo
Un paper de arXiv del 9 de mayo de 2026 sostiene que la tasa de éxito binaria oculta los jailbreaks más peligrosos. Su métrica Optimus puntúa los prompts por similitud y nocividad, y expone una banda «sigilosa óptima» donde el ASR cae a cero.
MPBench: una taxonomía sistemática del envenenamiento de memoria en agentes LLM
Un estudio de arXiv del 3 de junio de 2026 mapea cuatro canales de escritura de memoria, nueve debilidades estructurales y seis clases de ataque — y demuestra que las defensas anti-inyección no cubren el envenenamiento de memoria.
CyBiasBench: los agentes LLM ofensivos repiten siempre los mismos ataques
Un benchmark de mayo de 2026 registró 630 sesiones de ataque y constató que los agentes LLM en escenarios cíber ofensivos se concentran en un subconjunto reducido de familias de ataque, sin importar el prompt. Es el sesgo, no la habilidad, lo que decide qué intentan.
Reencuadre del objetivo: el único elemento del prompt que lleva a los agentes LLM a explotar un fallo plantado
Un estudio de arXiv del 6 de abril de 2026 realizó ~10.000 ensayos en siete modelos. La mayoría de las tácticas de «manipulación» no produjeron nada — solo el reencuadre del objetivo, como «estás resolviendo un acertijo», llevó a los agentes a explotar el fallo.
LASM: un mapa de 7 capas de los puntos ciegos en la defensa de agentes
Un estudio de 58 páginas revisado el 6 de mayo de 2026 reorganiza la seguridad de los agentes de IA por capa y por escala temporal sobre 116 papers. El mapa revela dónde hay ataques documentados pero ninguna defensa ni benchmark todavía.
LITMUS: cuando el agente dice no pero el archivo ya está borrado
Un benchmark del 11 de mayo de 2026 mide los jailbreaks de comportamiento de agentes LLM en entornos de SO reales, y revela que incluso Claude Sonnet 4.6 ejecuta el 40,6 % de las operaciones de alto riesgo, a veces mientras las rechaza verbalmente.
AgentSecBench: en un agente LLM, el flujo de datos no es autoridad
Publicado el 25 de mayo de 2026, AgentSecBench formaliza la seguridad de los agentes como no interferencia y prueba seis clases de defensa. La conclusión: el texto del prompt solo describe un límite; solo la procedencia, la restricción de capacidades y la validación de salida lo imponen.
Medir la capacidad de exploit de los LLM: ExploitBench, ExploitGym y SCONE-bench
El 22 de mayo de 2026, Anthropic publicó los resultados de Mythos Preview en tres nuevos benchmarks de explotación. Las cifras — y la forma en que los benchmarks descomponen la cadena de exploit — cambian cómo los defensores deben pensar la capacidad ofensiva de frontera.
Proprietary Problems: el estudio de Cisco con 15 modelos cerrados muestra que las puntuaciones de seguridad de un solo turno pasan por alto la mayor parte del riesgo multiturno
Un estudio de Cisco del 27 de mayo de 2026 sobre 15 modelos insignia cerrados de OpenAI, Anthropic, Google, Amazon y xAI mide tasas de éxito de ataque multiturno entre el 7,89 % y el 88,30 %, con brechas de hasta 55 puntos respecto al régimen de un solo turno.
La brecha de seguridad agente-humano: lo que la producción despliega, lo que la investigación estudia
Un paper de UCLA del 23 de mayo de 2026 audita 59 estudios académicos, 21 sistemas de agentes en producción y 26 plugins de seguridad, y constata que las defensas que prefieren los investigadores no tienen ningún despliegue en producción.
El impuesto de autonomía: cómo el entrenamiento defensivo rompe a los agentes LLM
Un artículo de USC del 19 de marzo de 2026 mide el coste del entrenamiento anti-inyección sobre la competencia de los agentes — los modelos defendidos expiran en el 99 % de las tareas, frente al 13 % de la línea base.
Envenenar la torre de vigilancia: cuando los copilotos de SOC leen logs controlados por el atacante
Un artículo del 23 de mayo de 2026 formaliza la inyección de prompt por sustrato de logs — contenido adverso colado en campos de logs para dirigir los asistentes LLM de los SOC. La mejor defensa deja pasar un 11,8 % medio de inyecciones.
MultiBreak: 10 389 prompts multiturno revelan cómo los jailbreaks conversacionales burlan la alineación de los LLM
Un paper aceptado en ICML 2026, publicado el 3 de mayo, presenta el benchmark multiturno más amplio y diverso hasta la fecha. Registra brechas en la tasa de éxito de ataque de hasta 54 puntos en DeepSeek-R1-7B y 34,6 en GPT-4.1-mini frente al estado del arte previo, y cuantifica cómo una alineación que aguanta en un solo turno se desploma a lo largo de varios.
Teaching Claude Why: cómo Anthropic redujo a cero el desalineamiento agéntico
El 8 de mayo de 2026, el equipo de Alignment Science de Anthropic publicó un estudio que muestra que enseñar a Claude a explicar su razonamiento ético — no solo a demostrarlo — redujo el desalineamiento agéntico del 96 % a menos del 1 %.
Integridad contextual: por qué fallan las defensas contra inyección de prompt
Un artículo de mayo de 2026 de Abdelnabi y Bagdasarian relee la inyección de prompt a través de la Integridad Contextual y muestra que separar datos e instrucciones es un error de categoría.
Cuando el atacante es otro LLM: los grandes modelos de razonamiento como jailbreakers autónomos
Un artículo de Nature Communications formalizado en mayo de 2026 muestra cómo cuatro modelos de razonamiento — DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini y Qwen3 235B — vulneran las salvaguardas de nueve LLM objetivo con una tasa de éxito global del 97,14 %, partiendo únicamente de un prompt de sistema.
Sleeper agents: puertas traseras ocultas que sobreviven al entrenamiento de seguridad
Anthropic demostró que modelos entrenados con frases-disparador ocultas retienen el comportamiento backdoor incluso después del entrenamiento RLHF estándar. Las implicaciones para los LLM de pesos abiertos son significativas.