sistema: OPERATIVO
← volver a todos los hacks
ADVERSARIAL MEDIUM NEW

SlotGCG: la posición del token adverso, no solo su contenido, determina el jailbreak

Un artículo de junio de 2026 muestra que los jailbreaks tipo GCG ganan ~14 % de eficacia cuando los tokens adversos se sitúan en posiciones correlacionadas con la atención, y conservan un 42 % de éxito frente al filtrado de entrada.

2026-06-08 // 6 min affects: open-weight-llms

¿Qué es esto?

SlotGCG es una técnica de jailbreak basada en optimización publicada en arXiv en junio de 2026 (2606.05609) por investigadores de la Universidad Dongguk, en Seúl. Cuestiona un supuesto antiguo de los ataques por sufijo adverso: que el sufijo —el final del prompt— sería el mejor lugar para colocar tokens adversos optimizados.

El ataque de referencia aquí es GCG (Greedy Coordinate Gradient, Zou et al., 2023), que añade al final del prompt una cadena de tokens optimizados por gradiente para forzar a un modelo alineado a obedecer. Todas las variantes de GCG desde entonces han mantenido los tokens en la cola. La conclusión de SlotGCG es sencilla e incómoda: dónde se insertan los tokens adversos importa tanto como su contenido, y el sufijo a menudo no es la posición más vulnerable.

Cómo funciona

El artículo generaliza el punto de inserción mediante la noción de slot (posición). Para un prompt de longitud L existen L+1 slots candidatos: uno antes del primer token, uno entre cada par de tokens y uno después del último. GCG solo usa el último slot.

En su lugar, SlotGCG puntúa todos los slots con un Vulnerable Slot Score (VSS), una métrica que estima la susceptibilidad de cada posición a la inserción adversa, y luego concentra la optimización en los slots mejor puntuados. El procedimiento es agnóstico al ataque: es un módulo de búsqueda de posición que, según los autores, puede acoplarse a cualquier ataque por optimización, con un sobrecoste de unos 200 ms de preprocesamiento.

Aquí no se reproduce ningún payload: la referencia canónica es el propio artículo. Lo que importa es la forma conceptual:

GCG clásico:  [ solicitud dañina ] [ sufijo optimizado ]
                                   └── solo aquí

SlotGCG:      [ ... ] [REDACTED] [ ... ] [REDACTED] [ ... ]
                      └── insertado en los slots con mayor VSS,
                          que por lo general NO son el sufijo

Dos resultados del estudio exploratorio son el verdadero tema:

  • Los slots vulnerables siguen la atención del modelo. Las posiciones más fáciles de atacar están fuertemente correlacionadas con el patrón de atención del modelo sobre la entrada. Siguen siendo vulnerables incluso cuando cambian los tokens insertados: es decir, la debilidad es una propiedad de la posición, no de una cadena mágica concreta. Cada prompt, sostienen los autores, contiene intrínsecamente sus propios slots vulnerables.
  • Las ganancias son medibles. En promedio sobre los métodos tipo GCG y los modelos probados, elegir slots con VSS alto aporta alrededor de un 14 % más de tasa de éxito del ataque (ASR), converge en menos pasos de optimización y —crucial para la defensa— conserva un 42 % más de éxito frente a las defensas por filtrado de entrada.

Por qué importa

El titular no es «un nuevo jailbreak». GCG es público desde 2023. El titular es que toda una clase de defensas se calibró implícitamente en el lugar equivocado.

Muchas barreras prácticas suponen que el ruido adverso vive al final del prompt: comprobaciones de perplejidad ponderadas hacia la cola, recorte del sufijo, «cortar todo lo que sigue a la pregunta del usuario». SlotGCG distribuye las perturbaciones por slots correlacionados con la atención a lo largo de todo el prompt, y por eso conserva el 42 % de su eficacia frente a un filtrado de entrada que un ataque de solo sufijo perdería. Si su defensa de entrada se validó contra GCG estándar, esa validación puede no transferirse.

La correlación con la atención también importa para la investigación en detección. Sugiere que la vulnerabilidad es estructural —ligada a cómo el transformer pondera su entrada— y no un capricho de un sufijo optimizado concreto. Buena noticia para las defensas basadas en principios (hay una señal que vigilar) y mala para las que hacen coincidencia de patrones (no hay una cadena fija que bloquear).

Precisión de alcance: GCG y SlotGCG son ataques de caja blanca que requieren acceso al gradiente, por lo que el objetivo directo son los modelos de pesos abiertos que usted aloja o ajusta. El trabajo original de GCG mostró que los sufijos optimizados pueden transferirse a modelos cerrados, pero la búsqueda de posición de SlotGCG es un procedimiento de caja blanca. Considérelo ante todo una herramienta de red teaming más afilada contra los modelos que opera, y una prueba de que la alineación por sí sola no es un control de despliegue.

Defensas

  1. Deje de defender solo el sufijo. Aplique las comprobaciones de perplejidad y de anomalías sobre toda la secuencia, con una ventana deslizante, no solo la cola. El 42 % de éxito que conserva SlotGCG existe precisamente porque los filtros centrados en el sufijo no ven las perturbaciones en mitad del prompt.
  2. Transforme la entrada, no solo la detección. El parafraseo y la re-tokenización (Jain et al., 2023) rompen las disposiciones de tokens frágiles y dependientes de la posición de las que viven estos ataques, porque desplazan o reescriben los slots atacados. Cuesta calidad de salida: resérvelos para las rutas de alto riesgo.
  3. Vigile la atención, no las cadenas. Como los slots vulnerables se correlacionan con la concentración de la atención, la detección de anomalías sobre el patrón de atención es una señal más duradera que bloquear sufijos. Es de nivel investigación, pero es la dirección que señala el resultado.
  4. Apile las defensas. Combine las medidas de entrada con clasificadores de rechazo/seguridad de salida y con el control de las llamadas a herramientas, para que una generación con jailbreak aún tenga que superar un segundo control antes de causar daño o activar una acción.
  5. Encajone los despliegues de pesos abiertos y ajustados. El acceso al gradiente de caja blanca es la condición de este ataque. Los modelos autoalojados son el objetivo realista: colóquelos tras barreras de ejecución y supervisión, en lugar de confiar en su alineación incorporada.
  6. Vuelva a probar sus barreras con ataques de posición variable. Si su banco de red team solo lanza GCG de sufijo, añádale inserción en slots variables. Una barrera que resiste el GCG estándar puede fallar aquí.

Estado

ElementoReferenciaFechaNotas
SlotGCGarXiv 2606.056092026-06Módulo de búsqueda de posición; métrica VSS; +14 % de ASR, +42 % de ASR frente al filtrado de entrada
GCG (referencia)arXiv 2307.150432023-07Optimización adversa de solo sufijo; el supuesto que SlotGCG rompe
Defensas básicasarXiv 2309.006142023-09Detección por perplejidad, paráfrasis, re-tokenización, entrenamiento adverso

La conclusión para la defensa: un filtro de entrada solo vale lo que valen las posiciones que inspecciona. SlotGCG recuerda que «el ataque está al final del prompt» siempre fue un supuesto, y es en los supuestos donde las barreras fallan en silencio.

Sources