RESEARCH MEDIUM NEW

Las defensas anti-fine-tuning de modelos abiertos caen ante ataques sin gradiente

Un estudio de CMU de mayo de 2026 muestra que salvaguardas resistentes a la manipulación como TAR y SEAM — diseñadas para sobrevivir al fine-tuning malicioso — son eludidas por dos ataques baratos y sin gradiente: abliteration y prefilling.

2026-06-17 // 6 min affects: llama-3.2, qwen-2.5, gemma-3, open-weight-llms

¿Qué es esto?

El 26 de mayo de 2026, Kevin Kuo, Chhavi Yadav y Virginia Smith (Carnegie Mellon University; Simons Institute, UC Berkeley) publicaron Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks (arXiv 2605.26526, cs.LG). El artículo no inventa un ataque nuevo. Prueba dos técnicas conocidas y de bajo costo — abliteration y prefilling — contra la última generación de salvaguardas para modelos de pesos abiertos, y demuestra que las rompen.

Las salvaguardas en cuestión buscan que el comportamiento de rechazo de un modelo sobreviva a un fine-tuning malicioso. Las dos estudiadas aquí son TAR (Tampering Attack Resistance, Tamirisa et al., 2408.00761) y SEAM (una salvaguarda autodestructiva). Ambas asumen que el peor caso es un atacante que descarga los pesos abiertos y los reentrena hacia fines dañinos. La aportación de este artículo es mostrar que, a menudo, un atacante no necesita reentrenar nada.

Es un análisis defensivo, del lado de la investigación. No contiene payloads de explotación; abliteration y prefilling son métodos genéricos ya publicados.

Cómo funciona

La idea central trata sobre el modelo de amenaza. TAR y SEAM se apoyan en el supuesto implícito de que el comportamiento dañino se aprende mediante el fine-tuning. Pero un modelo preentrenado ya codifica un amplio conocimiento dañino — el fine-tuning adversario sirve sobre todo para eliminar el reflejo de rechazo, no para enseñar capacidades nuevas. Si el conocimiento ya está ahí, el atacante solo necesita evocarlo.

Los dos ataques sin gradiente hacen exactamente eso, sin actualizar pesos ni optimizar por gradiente:

Abliteration. En los modelos alineados con la seguridad, el rechazo está mediado en gran medida por una única dirección en el flujo residual (Arditi et al., 2406.11717). El atacante estima esa dirección a partir de un pequeño conjunto de instrucciones dañinas y benignas, y luego la resta de las activaciones en el momento de la inferencia. El modelo deja de rechazar — sin reentrenamiento.
Prefilling. El atacante siembra el inicio de la propia respuesta del modelo con un fragmento complaciente (el artículo usa una cadena fija "Sure, here are some ideas. First, …"). Como el modelo continúa a partir de un contexto que ya ha “aceptado”, se salta el rechazo que normalmente produciría.

Ambas son manipulaciones en la inferencia, al alcance de cualquiera que posea los pesos abiertos. Ninguna requiere el costoso fine-tuning basado en gradiente contra el que TAR y SEAM fueron endurecidos específicamente.

Por qué importa

Los resultados son contundentes. Sin ataque, las salvaguardas funcionan: las tasas de éxito de ataque se mantienen por debajo del 10 %. Con los ataques sin gradiente, esas tasas saltan a un rango de 16 % a 96 % en tres benchmarks de nocividad (BeaverTails, HarmBench, AdvBench) y tres familias de modelos (Llama 3.2, Qwen 2.5, Gemma 3, de aproximadamente 1B a 8B). La abliteration por sí sola lleva a los modelos base y SEAM por encima del 70 % en los tres benchmarks, y por encima del 90 % en AdvBench y HarmBench. TAR aguanta mejor pero aun así se degrada hasta varias veces su nivel sin ataque.

La lección más amplia para quien distribuye modelos de pesos abiertos o depende de ellos: una salvaguarda que solo suprime el rechazo, sin eliminar el conocimiento dañino subyacente, deja una superficie de ataque que las evaluaciones limitadas al fine-tuning nunca miden. Una defensa puede parecer sólida frente a la clase de ataques más difícil y costosa y caer ante la más simple. Esto tiene implicaciones directas para las decisiones de publicación, las fichas de modelo y cualquier afirmación de seguridad asociada a pesos abiertos.

Defensas

Evaluar frente a ataques sin gradiente, no solo al fine-tuning. La recomendación central del artículo: las afirmaciones de durabilidad para las salvaguardas de modelos abiertos deben incluir abliteration y prefilling (y su combinación), o sobrestiman la robustez.
Considerar el Abliteration-Resistant Tuning (ART). Los autores proponen ART, que integra un objetivo basado en abliteration en el entrenamiento. Puede superponerse a las salvaguardas existentes y reducir el éxito de abliteration, prefilling y su combinación en un 10–20 % — una mitigación, no una cura.
No confundir supresión con eliminación. Cuando el modelo de amenaza lo exija, preferir los enfoques que reducen el conocimiento dañino en sí (filtrado de datos, desaprendizaje) frente a los que solo enmascaran la dirección de rechazo.
Asumir que los pesos abiertos están totalmente bajo control del atacante. Una vez que los pesos son públicos, las defensas en la inferencia (filtros de entrada/salida, direcciones de rechazo, prompts de sistema) pueden borrarse. Una seguridad que deba resistir a un adversario decidido no puede residir únicamente en un checkpoint descargable.
Mantener controles del lado del despliegue. Para servicios alojados construidos sobre modelos abiertos, combinar la seguridad a nivel de modelo con moderación, monitoreo y limitación de tasa externos, que el atacante no pueda desactivar.

Estado

Elemento	Detalle
Artículo	«Open-Weight LLM Fine-Tuning Defenses are Susceptible to Simple Attacks»
ID arXiv	2605.26526 (cs.LG)
Publicado	26 de mayo de 2026
Autores	Kevin Kuo, Chhavi Yadav, Virginia Smith (CMU; Simons Institute, UC Berkeley)
Salvaguardas probadas	TAR (2408.00761), SEAM
Ataques	Abliteration, Prefilling — sin gradiente, sin fine-tuning
Benchmarks	BeaverTails, HarmBench, AdvBench
Modelos	Llama 3.2, Qwen 2.5, Gemma 3 (~1B–8B)
Resultado	Tasa de éxito de ataque de <10 % a 16–96 %
Defensa propuesta	Abliteration-Resistant Tuning (ART), −10–20 % de tasa de éxito
Naturaleza	Investigación defensiva — sin payloads de explotación