Direcciones de escape del rechazo: por qué la alineación no puede cerrar la brecha de los jailbreaks
Un artículo de mayo de 2026 demuestra que los LLM alineados conservan «direcciones de escape del rechazo» inscritas en su estructura de operadores, lo que explica la persistencia de los jailbreaks y el coste en utilidad de eliminarlas.
¿Qué es esto?
Durante dos años, la pregunta práctica dominante sobre los jailbreaks ha sido cómo construir uno: qué sufijo, qué persona, qué codificación. Un artículo publicado en arXiv el 9 de mayo de 2026 —«Why Do Aligned LLMs Remain Jailbreakable: Refusal-Escape Directions, Operator-Level Sources, and Safety-Utility Trade-off» (arXiv:2605.08878, Chen, Liu y Cao)— plantea la pregunta más difícil: por qué funciona todo esto y qué hay en la estructura interna de un modelo alineado que mantiene la puerta abierta.
Su respuesta es un concepto que los autores llaman Refusal-Escape Direction (RED), o dirección de escape del rechazo: una dirección de perturbación local alrededor de una entrada dañina que hace que el modelo pase de rechazar a responder conservando su propia interpretación de que la entrada es dañina. En este marco, un jailbreak no es solo una cadena afortunada, sino una transición continua del rechazo a la respuesta que existe porque la geometría del modelo lo permite. El trabajo es teórico y defensivo: describe un límite estructural y no publica ningún ataque ejecutable.
Cómo funciona
El resultado se apoya en una línea ya consolidada de interpretabilidad mecanicista. El artículo de 2024 «Refusal in Language Models Is Mediated by a Single Direction» (arXiv:2406.11717, Arditi et al., NeurIPS 2024) mostró que el rechazo, en muchos modelos de chat abiertos, se gobierna por aproximadamente una sola dirección del flujo residual: borrarla hace que el modelo deje de rechazar; amplificarla hace que rechace peticiones inofensivas. Un seguimiento de febrero de 2026, «There Is More to Refusal… than a Single Direction» (arXiv:2602.02132), demostró que el panorama es multidimensional. El artículo RED formaliza lo que eso significa para la seguridad.
La idea central es tratar la red como una composición de operadores (normalización, cableado residual, atención, MLP, proyección terminal) y demostrar que una RED se descompone exactamente en contribuciones de cada fuente a nivel de operador. Tres de esas fuentes —la normalización, el cableado residual y la capa terminal— son lo que los autores llaman analíticamente restringidas: su contribución a una RED está fijada por la arquitectura, no es algo que el entrenamiento pueda cancelar libremente. Para eliminar por completo la dirección de escape, los módulos expresivos compartidos (la autoatención y el MLP) tendrían que cancelar esas contribuciones restringidas a la vez que preservan las rutas que producen respuestas útiles a peticiones legítimas. Esas dos exigencias tiran en sentidos opuestos.
Empíricamente, en Qwen3-4B, Qwen3-14B, Llama-3.1 y Gemma-3 y varios métodos de ataque, los autores muestran que añadir dimensiones de tokens puede exponer una RED, y que los jailbreaks exitosos producen transiciones del rechazo a la respuesta alineadas en gran medida con la contribución de la fuente terminal que predijeron. El mecanismo coincide con la matemática. Aquí no se reproduce ningún payload: la aportación es la explicación, no el exploit.
Por qué importa
La consecuencia práctica es un compromiso seguridad-utilidad condicional con base mecanicista en lugar de un argumento vago. Si las direcciones de escape del rechazo están en parte fijadas por la arquitectura, entonces un único modelo entrenado en seguridad no puede llevar la probabilidad de jailbreak a cero sin erosionar su capacidad de responder a peticiones legítimas. Esto reformula tres creencias habituales:
Primero, «hicimos más fine-tuning, así que ahora es seguro» es estructuralmente optimista. La alineación aumenta el coste de encontrar una RED; no borra la dirección. Segundo, las defensas que apuntan a una sola dirección de rechazo (o a un solo delimitador, o a una sola familia de sufijos) atacan un síntoma: el resultado de febrero de 2026 ya mostró que el rechazo no es unidimensional, y RED explica por qué comprimir una fuente deja otras. Tercero, el compromiso es condicional, no absoluto: muerde con más fuerza cuando se le pide a un único modelo ser a la vez máximamente útil y máximamente seguro, por sí solo.
Para quien despliega una función basada en LLM, este último punto es el accionable. Es un argumento a favor de controles en capas, externos al modelo, en lugar de apostar la seguridad únicamente al comportamiento de rechazo del modelo base.
Defensas
El artículo responde a un «por qué»: su valor defensivo está en cómo reorienta el esfuerzo, no en un parche.
-
Deje de tratar el rechazo como una frontera. La disposición de un modelo a declinar es un comportamiento probabilístico moldeado por direcciones en parte arquitectónicas. Diseñe asumiendo que el rechazo de cualquier modelo puede perturbarse, porque mecánicamente puede.
-
Defienda en capas, fuera del modelo. Como la fuga es estructural, los controles duraderos están alrededor del modelo: clasificadores de entrada/salida, listas de permitidos para la recuperación y las llamadas a herramientas, sandboxing de capacidades y límites tipo «regla de dos» sobre entrada no confiable + acción sensible + canal de exfiltración. Estos controles no dependen de un rechazo que el modelo base no puede garantizar.
-
Prefiera múltiples señales de seguridad independientes. Una consecuencia de la visión multidimensional es que controles redundantes y causalmente independientes son más difíciles de suprimir a la vez que una única ruta de rechazo. Diversifique los detectores en lugar de endurecer uno solo.
-
Presupueste el compromiso de forma deliberada. Si empujar un modelo hacia cero jailbreaks degrada de forma medible el rendimiento en tareas legítimas, ese es el coste predicho, no un fallo de ajuste. Decida en qué punto de la curva seguridad-utilidad debe situarse un despliegue dado y ponga el resto de la garantía en el sistema circundante.
-
Use la descomposición para la evaluación, no solo para el ataque. La atribución a nivel de operador da a los red teams y evaluadores un punto de sondeo fundamentado —las fuentes de normalización, residual y terminal— en lugar de solo enumerar prompts de superficie.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| Refusal-Escape Directions (RED) | arXiv:2605.08878 | 2026-05-09 | Demuestra que la RED se descompone en fuentes de operador; compromiso seguridad-utilidad condicional |
| Rechazo mediado por una sola dirección | arXiv:2406.11717 | 2024-06 (NeurIPS 2024) | Fundacional: una dirección gobierna el rechazo en modelos de chat abiertos |
| El rechazo es multidimensional | arXiv:2602.02132 | 2026-02 | El rechazo no es una sola dirección; motiva la visión por operadores |
| Alcance empírico | arXiv:2605.08878 | 2026-05-09 | Qwen3-4B/14B, Llama-3.1, Gemma-3; pesos abiertos |
El titular no es un ataque nuevo. Es una prueba de que parte de la superficie de jailbreak está cableada en la arquitectura, por lo que la respuesta correcta es una defensa en capas, externa al modelo, y una elección deliberada de posición en la curva seguridad-utilidad, no la creencia de que una ronda más de alineación cerrará la brecha.