JAILBREAK

(12)

12 hack(s).

Jailbreak con encuadre CTF: el prompt se filtra en el ataque

Sysdig (15 de junio de 2026) detectó a operadores que jailbreakean su propio asistente de código disfrazando las peticiones de exploit como CTF o caza de CVE — y ese encuadre se filtra en los User-Agent, contraseñas y registros IAM, dejando una huella valiosa para los defensores.

2026-06-21//8 min

JAILBREAK MEDIUM NEW

Sobrecarga cognitiva: cómo una baja resolución de imagen jailbreakea los LLM multimodales

Un artículo de mayo de 2026 (Findings of ACL 2026) muestra que reducir la resolución de un texto renderizado como imagen empuja a los MLLM de vanguardia a una «zona de confort de ataque» donde la alineación de seguridad se desploma mientras el OCR sigue siendo preciso.

2026-06-21//6 min

JAILBREAK MEDIUM NEW

Jailbreak por RL: la recompensa y la duración del episodio mandan

Un estudio de junio de 2026 descompone el jailbreak por aprendizaje por refuerzo y halla que el diseño del entorno — recompensa densa y episodios largos — pesa más que el algoritmo.

2026-06-20//7 min

JAILBREAK MEDIUM NEW

UniAttack: un jailbreak automatizado que apunta a las defensas LLM en capas

Un preprint de junio de 2026 construye un marco de red teaming automatizado que combina varias estrategias y lo lanza contra modelos con defensas apiladas, mostrando que apilar barreras no garantiza robustez.

2026-06-20//5 min

JAILBREAK MEDIUM NEW

Los jailbreaks adaptativos siguen rompiendo las defensas de los LLM: el problema es la evaluación

Un framework de junio de 2026, UniAttack, compone «características» de ataque reutilizables en jailbreaks de un solo intento que se transfieren entre modelos y defensas, recordando que una defensa probada solo frente a ataques estáticos da una falsa sensación de seguridad.

2026-06-18//6 min

JAILBREAK MEDIUM

IICL: la compleción de patrones vence al alineamiento con 10 ejemplos

Un artículo de arXiv de abril de 2026 vuelve el aprendizaje en contexto contra el modelo: una decena de ejemplos con operadores abstractos hacen que GPT-5.4 complete un patrón dañino que sus filtros de contenido nunca detectan.

2026-06-17//7 min

JAILBREAK MEDIUM NEW

Para-jailbreaking: cuando la «safe completion» filtra el daño en la alternativa

Un artículo de arXiv del 27 de abril de 2026 nombra un nuevo modo de fallo de la seguridad centrada en la salida: el modelo rechaza correctamente la pregunta directa, pero filtra contenido dañino dentro de la «alternativa segura» que ofrece en su lugar.

2026-06-16//6 min

JAILBREAK MEDIUM NEW

Jailbreak de vídeo multiclip: por qué el vídeo rompe la seguridad de los LLM multimodales

Un artículo de ACL de junio de 2026 muestra que el canal de vídeo es una frontera de seguridad más débil que la imagen: la tasa de éxito sube al dividir el vídeo en clips diversos.

2026-06-14//7 min

JAILBREAK MEDIUM NEW

CodeSpear: cuando la decodificación con restricción gramatical se convierte en superficie de jailbreak

Un artículo de arXiv del 10 de junio de 2026 muestra que la función de fiabilidad que obliga a que la salida de código de un LLM sea sintácticamente válida puede convertirse en un jailbreak. Aplicar una gramática de código inocua elude los rechazos; la defensa CodeShield de los autores responde con código señuelo.

2026-06-12//6 min

JAILBREAK MEDIUM NEW

Sockpuppeting: una sola línea de prefill que hace jailbreak a 11 LLM en producción

Una línea inyectada como último mensaje del asistente induce a 7 de 10 modelos importantes a generar contenido dañino. La defensa no está en el modelo — está en la validación del orden de mensajes a nivel de API.

2026-05-28//8 min

JAILBREAK MEDIUM

Jailbreaks por codificación matemática: cuando la teoría de conjuntos elude la seguridad de los LLM

Un artículo de arXiv publicado el 5 de mayo de 2026 muestra que reformular un prompt dañino como un problema de teoría de conjuntos o de lógica formal evade el entrenamiento de seguridad en el 46–56 % de los intentos sobre ocho modelos frontera — pero solo si un LLM auxiliar realiza la reformulación.

2026-05-25//7 min

JAILBREAK CRITICAL

Many-shot jailbreaking: 256 ejemplos para saltar cualquier alineamiento

Investigadores de Anthropic mostraron que rellenando la ventana de contexto con 256 falsos ejemplos de Q&A se elude el entrenamiento de seguridad. Más contexto = más superficie de ataque.

2026-05-15//6 min