DEFENSE MEDIUM NEW

El desaprendizaje de backdoors generaliza: eliminar un disparador puede suprimir otros

Un artículo de junio de 2026 muestra que enseñar a un LLM a ignorar un disparador de backdoor también puede debilitar otras backdoors nunca atacadas, cuando sus desplazamientos de activación internos son próximos, medidos con una nueva métrica: CASD.

2026-06-21 // 6 min affects: open-weight-llms, fine-tuned-llms, pretrained-llms

¿Qué es esto?

Una backdoor implanta un disparador (trigger) oculto durante el entrenamiento o el fine-tuning: el modelo se comporta con normalidad ante entradas limpias, pero emite la salida elegida por el atacante en cuanto aparece el disparador. El problema del defensor es que un modelo suele llegar sin ninguna señal de si está comprometido, cuántos disparadores contiene o qué aspecto tienen. Las defensas de eliminación existentes abordan las backdoors de una en una y asumen que el disparador es conocido, justo la información que un atacante oculta mejor.

El artículo Backdoor Unlearning Generalization: A Path Toward the Removal of Unknown Triggers in LLMs (arXiv:2606.03785, publicado en junio de 2026) presenta un hallazgo empírico que cambia la forma de pensar la limpieza: la neutralización de backdoors por desaprendizaje generaliza. Entrenar a un modelo para ignorar un único disparador también puede suprimir otras backdoors que nunca fueron atacadas explícitamente. Es un estudio defensivo y respaldado por mediciones, no una receta de ataque.

Cómo funciona

Los autores estudian modelos que portan varias backdoors a la vez, inyectadas en distintos momentos del entrenamiento: durante el preentrenamiento y durante el preentrenamiento continuo (continual pretraining). Luego eliminan las backdoors de una en una mediante desaprendizaje y observan qué ocurre con las demás.

Para explicar cuándo se produce esta supresión colateral, introducen la Cross Activation Shift Distance (CASD), una métrica que cuantifica la distancia entre los cambios que dos entrenamientos distintos inducen dentro del modelo. La intuición: cada backdoor, al activarse, desplaza las activaciones internas en una dirección concreta. Si dos backdoors empujan las activaciones en direcciones próximas, el fine-tuning que cancela una tiende a cancelar la otra como efecto secundario.

Los resultados reportados:

El desaprendizaje generaliza cuando los desplazamientos de activación son próximos. La CASD predice qué backdoors se co-suprimirán: cuanto menor es la distancia de desplazamiento de activación entre dos backdoors, más debilita la eliminación de una a la otra.
La eliminación cruza las etapas de entrenamiento. Ocurre dentro de una misma etapa y entre etapas: una backdoor plantada durante el preentrenamiento continuo puede debilitarse al desaprender una introducida en el preentrenamiento, y viceversa.
El efecto se sostiene en varias familias de modelos. El fenómeno se observó en tres familias distintas, lo que sugiere una propiedad estructural de cómo se codifican las backdoors, más que un artefacto de una sola arquitectura.

Este resultado complementa otro de junio de 2026, la defensa por «backdoor señuelo» (arXiv:2606.11648), que planta y elimina deliberadamente una backdoor controlable para arrastrar consigo a la desconocida. Ambas líneas se apoyan en la misma observación: las backdoors con objetivos similares convergen en rutas internas compartidas.

Por qué importa

La mayoría de las defensas intentan encontrar el disparador: reconstruirlo, marcar entradas anómalas o escanear los pesos. Esa es la parte frágil: una forma de disparador inédita derrota a un detector calibrado sobre formas conocidas. Un efecto de supresión que generaliza apunta en sentido contrario. Si suprimir una backdoor degrada de forma fiable a las estructuralmente similares, los defensores pueden limpiar modelos que no pueden auditar por completo, la posición real de quien consume checkpoints open-weight, fine-tunes comunitarios o modelos entregados por un proveedor.

También matiza una preocupación conocida. El trabajo Sleeper Agents de Anthropic (arXiv:2401.05566) mostró que algunas backdoors sobreviven al entrenamiento de seguridad estándar e incluso al entrenamiento adversarial. El resultado de generalización no lo refuta: sugiere que un desaprendizaje dirigido, guiado por dónde viven realmente las backdoors en el espacio de activación, se comporta de forma distinta a un fine-tuning de seguridad genérico, y puede alcanzar disparadores que el defensor nunca ve.

Defensas

Conclusiones concretas para equipos que despliegan o ajustan LLM:

Trate los pesos heredados como no confiables. En general no se puede probar que un modelo descargado esté limpio. Añada una etapa de saneamiento a la admisión de modelos en lugar de confiar solo en la procedencia.
Prefiera la eliminación independiente del disparador. Las defensas que dependen de recuperar el disparador exacto fallan ante nuevas formas. La limpieza a nivel de mecanismo se degrada con más elegancia.
Use señales de distancia de activación para priorizar. Una métrica como la CASD ayuda a estimar qué backdoors residuales es probable que haya tocado una pasada de desaprendizaje, y cuáles probablemente no.
Mida siempre la utilidad junto a la ASR. Haga seguimiento tanto de la tasa de éxito de ataque como de la precisión en tareas benignas, antes y después de la limpieza; una eliminación que arruina el rendimiento no es desplegable.
Vuelva a probar tras cada fine-tune. Cada pasada de entrenamiento sobre datos externos es una nueva oportunidad de inyección. Reejecute sus evaluaciones de backdoor y jailbreak en cada revisión.
Mantenga la defensa en profundidad. La limpieza a nivel de modelo es una capa. Combínela con filtrado de salidas, autorización de uso de herramientas y diseño de agentes con privilegio mínimo, para que una backdoor residual tenga un radio de impacto limitado.

Estado

Elemento	Detalle
Artículo	«Backdoor Unlearning Generalization: A Path Toward the Removal of Unknown Triggers in LLMs»
ID de arXiv	2606.03785
Publicado	Junio de 2026
Tipo	Hallazgo empírico + análisis — sin payloads de explotación
Idea central	Desaprender una backdoor puede suprimir otras cuando sus desplazamientos de activación internos son próximos
Nueva métrica	Cross Activation Shift Distance (CASD)
Probado en	Tres familias de modelos; backdoors inyectadas en preentrenamiento y preentrenamiento continuo
Conclusión clave	La supresión cruzada generaliza dentro y entre etapas de entrenamiento, predicha por la CASD