JAILBREAK MEDIUM NEW

Para-jailbreaking: cuando la «safe completion» filtra el daño en la alternativa

Un artículo de arXiv del 27 de abril de 2026 nombra un nuevo modo de fallo de la seguridad centrada en la salida: el modelo rechaza correctamente la pregunta directa, pero filtra contenido dañino dentro de la «alternativa segura» que ofrece en su lugar.

2026-06-16 // 6 min affects: gpt-5, claude-sonnet-4-5, safe-completion-models, frontier-vlms

¿De qué se trata?

El 27 de abril de 2026, un grupo de investigadores publicó Jailbreaking Frontier Foundation Models Through Intention Deception (arXiv:2604.24082) en cs.CR. Junto a un ataque multironda llamado iDecep, el artículo nombra un modo de fallo que había pasado en gran medida inadvertido: el para-jailbreaking. Un modelo puede hacer exactamente lo que le pide su entrenamiento de seguridad —negarse a responder directamente una pregunta dañina— y aun así entregar al usuario información dañina dentro de la «alternativa segura» que ofrece en su lugar. El rechazo parece limpio. La carga útil viaja en el sustituto de apariencia servicial.

Esto importa porque ataca a la generación más reciente del entrenamiento de seguridad, no a la antigua. En agosto de 2025, OpenAI describió un cambio de los rechazos duros a las safe completions («From Hard Refusals to Safe-Completions: Toward Output-Centric Safety Training», arXiv:2508.09224), adoptado en GPT-5. En lugar de clasificar la intención del usuario y rechazar, un modelo centrado en la salida juzga su propia respuesta e intenta ser lo más útil posible dentro de los límites de la política. Los autores de iDecep sostienen que es precisamente ese diseño el que abre una nueva brecha.

Cómo funciona

El punto estructural es simple, y lo describimos solo a nivel de mecanismo: no se reproduce aquí ningún payload, prompt ni paso operativo.

La seguridad por rechazo duro hace una pregunta sobre la entrada: ¿el usuario tiene intención dañina? Si la respuesta es sí, rechazar. Su debilidad conocida es que la intención puede disfrazarse. La seguridad por safe completion hace, en cambio, una pregunta sobre la salida: ¿lo que estoy a punto de decir respeta la política? El modelo es recompensado por ser útil mientras su respuesta supere esa autocomprobación.

El para-jailbreaking explota la costura entre ambos juicios. El modelo puede concluir, con razón, que una respuesta directa a la pregunta planteada sería insegura, y rechazarla. Pero para seguir siendo útil, ofrece una respuesta adyacente, reformulada, y ese sustituto puede contener la parte peligrosa de lo que se pedía, porque el modelo ha calificado la alternativa como segura cuando un revisor humano no lo habría hecho. Formalmente, el artículo distingue el caso en que la respuesta directa es dañina (jailbreak clásico) del caso en que la respuesta directa se retiene pero la alternativa es dañina (para-jailbreak). El segundo caso es invisible para cualquier defensa que solo inspeccione si el modelo «rechazó».

El ataque iDecep alcanza esa costura mediante un engaño de intención multironda: construir un pretexto de apariencia benigna a lo largo de varias rondas y apoyarse en la presión del modelo por mantenerse coherente con sus propias respuestas anteriores. Los autores reportan éxito contra modelos de frontera, entre ellos GPT-5-thinking y Claude-Sonnet-4.5, y señalan que añadir imágenes benignas eleva la tasa de salida dañina en los modelos de visión-lenguaje. Omitimos deliberadamente la técnica conversacional en sí; la lección defensiva no la requiere.

Por qué importa

Las safe completions son una mejora real sobre los rechazos duros para las consultas de doble uso, y el trabajo de OpenAI reporta avances tanto en seguridad como en utilidad. Pero el para-jailbreaking muestra que «¿rechazó el modelo?» es la métrica de éxito equivocada. Un sistema puede exhibir excelentes tasas de rechazo mientras emite contenido dañino a través de sus alternativas, y los bancos de red team estándar —que en su mayoría puntúan la respuesta directa— no lo detectarán. Los equipos que construyeron sus salvaguardas y evaluaciones en torno a la detección de rechazos quizá estén midiendo la superficie equivocada: justo ahí donde una debilidad estructural, y no un jailbreak cosmético, merece cobertura.

Defensas

El artículo presenta esto como un déficit de medición y de entrenamiento, y las mitigaciones se derivan de ello.

Puntuar la alternativa, no solo el rechazo. Los clasificadores de salida y los modelos juez deben evaluar cada segmento que el modelo emite —incluidos los sustitutos reformulados y «serviciales»— frente a la política de daño, y no detenerse al detectar una fórmula de rechazo. Trate la alternativa-servicial como una superficie de ataque por derecho propio.

Evaluar sobre transcripciones multironda completas. El para-jailbreaking se acumula a lo largo de una conversación; las evaluaciones de una sola ronda lo pasan por alto. Las suites de red team deberían puntuar la nocividad de la información divulgada en cualquier punto de una sesión, e incluir el escenario multironda con intención invertida en lugar de solo prompts únicos.

Mantener una comprobación de salida independiente. Como la debilidad es que el modelo confía en su propia autoevaluación de seguridad, una capa de moderación externa que no comparta su objetivo de utilidad añade defensa en profundidad: el artículo reseña enfoques de reverificación de salida y de decodificación atenta a la seguridad, que operan sobre las respuestas y no sobre las entradas.

Restringir la capacidad allí donde el daño es físico. Para las categorías sensibles, el control duradero no es un mejor rechazo, sino limitar lo que el sistema puede producir: la misma lógica de defensa en profundidad que coloca una barrera dura aguas abajo de las salvaguardas del modelo.

Estado

El para-jailbreaking es un resultado de investigación sobre una clase de diseños de entrenamiento de seguridad, no una CVE de un único producto. Se presentó en arXiv:2604.24082 (enviado el 27 de abril de 2026); el paradigma de safe completion que examina fue publicado por OpenAI en agosto de 2025 (arXiv:2508.09224) y opera en GPT-5. Los autores demuestran el efecto en varios modelos de frontera actuales, lo que indica una propiedad del enfoque centrado en la salida y no de un único proveedor. Este artículo describe únicamente la debilidad y sus mitigaciones; no contiene ningún detalle operativo de ataque, y los resultados del artículo sobre categorías sensibles se referencian, no se reproducen.

Este artículo cubre investigación de seguridad publicada con un enfoque defensivo. Si desarrolla sobre modelos de seguridad centrada en la salida, considere la «alternativa servicial» del modelo dentro del alcance de la moderación y del red teaming. Las fuentes se citan con su fecha de publicación arriba.