JAILBREAK
(12)12 hack(s).
Jailbreak con encuadre CTF: el prompt se filtra en el ataque
Sysdig (15 de junio de 2026) detectó a operadores que jailbreakean su propio asistente de código disfrazando las peticiones de exploit como CTF o caza de CVE — y ese encuadre se filtra en los User-Agent, contraseñas y registros IAM, dejando una huella valiosa para los defensores.
Sobrecarga cognitiva: cómo una baja resolución de imagen jailbreakea los LLM multimodales
Un artículo de mayo de 2026 (Findings of ACL 2026) muestra que reducir la resolución de un texto renderizado como imagen empuja a los MLLM de vanguardia a una «zona de confort de ataque» donde la alineación de seguridad se desploma mientras el OCR sigue siendo preciso.
Jailbreak por RL: la recompensa y la duración del episodio mandan
Un estudio de junio de 2026 descompone el jailbreak por aprendizaje por refuerzo y halla que el diseño del entorno — recompensa densa y episodios largos — pesa más que el algoritmo.
UniAttack: un jailbreak automatizado que apunta a las defensas LLM en capas
Un preprint de junio de 2026 construye un marco de red teaming automatizado que combina varias estrategias y lo lanza contra modelos con defensas apiladas, mostrando que apilar barreras no garantiza robustez.
Los jailbreaks adaptativos siguen rompiendo las defensas de los LLM: el problema es la evaluación
Un framework de junio de 2026, UniAttack, compone «características» de ataque reutilizables en jailbreaks de un solo intento que se transfieren entre modelos y defensas, recordando que una defensa probada solo frente a ataques estáticos da una falsa sensación de seguridad.
IICL: la compleción de patrones vence al alineamiento con 10 ejemplos
Un artículo de arXiv de abril de 2026 vuelve el aprendizaje en contexto contra el modelo: una decena de ejemplos con operadores abstractos hacen que GPT-5.4 complete un patrón dañino que sus filtros de contenido nunca detectan.
Para-jailbreaking: cuando la «safe completion» filtra el daño en la alternativa
Un artículo de arXiv del 27 de abril de 2026 nombra un nuevo modo de fallo de la seguridad centrada en la salida: el modelo rechaza correctamente la pregunta directa, pero filtra contenido dañino dentro de la «alternativa segura» que ofrece en su lugar.
Jailbreak de vídeo multiclip: por qué el vídeo rompe la seguridad de los LLM multimodales
Un artículo de ACL de junio de 2026 muestra que el canal de vídeo es una frontera de seguridad más débil que la imagen: la tasa de éxito sube al dividir el vídeo en clips diversos.
CodeSpear: cuando la decodificación con restricción gramatical se convierte en superficie de jailbreak
Un artículo de arXiv del 10 de junio de 2026 muestra que la función de fiabilidad que obliga a que la salida de código de un LLM sea sintácticamente válida puede convertirse en un jailbreak. Aplicar una gramática de código inocua elude los rechazos; la defensa CodeShield de los autores responde con código señuelo.
Sockpuppeting: una sola línea de prefill que hace jailbreak a 11 LLM en producción
Una línea inyectada como último mensaje del asistente induce a 7 de 10 modelos importantes a generar contenido dañino. La defensa no está en el modelo — está en la validación del orden de mensajes a nivel de API.
Jailbreaks por codificación matemática: cuando la teoría de conjuntos elude la seguridad de los LLM
Un artículo de arXiv publicado el 5 de mayo de 2026 muestra que reformular un prompt dañino como un problema de teoría de conjuntos o de lógica formal evade el entrenamiento de seguridad en el 46–56 % de los intentos sobre ocho modelos frontera — pero solo si un LLM auxiliar realiza la reformulación.
Many-shot jailbreaking: 256 ejemplos para saltar cualquier alineamiento
Investigadores de Anthropic mostraron que rellenando la ventana de contexto con 256 falsos ejemplos de Q&A se elude el entrenamiento de seguridad. Más contexto = más superficie de ataque.