RESEARCH MEDIUM NEW

Olvidado pero recuperable: por qué el desaprendizaje de los LLM sigue filtrando

Varios trabajos de 2025-2026 muestran que el conocimiento «desaprendido» de un LLM sigue siendo recuperable — mediante cuantización, prompts adversarios y ahora trazas de razonamiento. Tratar el desaprendizaje como un borrado es un error.

2026-06-08 // 7 min affects: open-weight-llms, llama, reasoning-models

¿Qué es esto?

El desaprendizaje (machine unlearning) agrupa las técnicas que intentan que un modelo «olvide» una porción concreta de lo aprendido: los datos de una persona tras una solicitud de supresión, texto con derechos de autor, o conocimiento peligroso como el contenido biológico y cibernético del benchmark WMDP. Se invoca cada vez más como control de cumplimiento y seguridad: en lugar de reentrenar un modelo desde cero (caro) cada vez que algo debe eliminarse, se ejecuta un procedimiento de desaprendizaje que suprime el objetivo a bajo coste.

Una línea constante de investigación, de 2024 a 2026, llega siempre a la misma conclusión incómoda: la mayoría del desaprendizaje no borra el conocimiento, lo oculta — y el ocultamiento es superficial. El trabajo más reciente, Towards Unveiling Vulnerabilities of Large Reasoning Models in Machine Unlearning (arXiv:2604.04255, Iowa State University, publicado en abril de 2026), extiende el problema a los modelos de razonamiento. Se suma a REBEL (arXiv:2602.06248, febrero de 2026), al artículo de ICLR 2025 sobre cuantización, a un ataque de razonamiento paso a paso (junio de 2025) y a una sistematización del conocimiento (junio de 2025) para mostrar que «olvidado» no es lo mismo que «desaparecido».

Cómo funciona

El problema central es de evaluación. Los benchmarks de desaprendizaje consultan al modelo con preguntas directas e inocuas («¿Quién es X?») y declaran el éxito cuando la respuesta ya no aparece. Pero suprimir la salida más probable de un modelo no equivale a eliminar la representación subyacente. Varios canales de recuperación independientes explotan esa brecha:

Canal de recuperacion   Lo que explota                           Efecto reportado
----------------------  ---------------------------------------  ----------------------------
Cuantizacion            El desaprendizaje solo mueve los pesos   Conocimiento retenido sube
                        levemente; el redondeo de baja           de ~21% a ~83% en 4-bit
                        precision deshace ese movimiento
Prompts adversarios     Las metricas inocuas pasan por alto el   REBEL: ASR hasta 60%
(busqueda evolutiva)    saber residual alcanzable con prompts    (TOFU), 93% (WMDP)
                        mas duros
Sondas de razonamiento  La elicitacion paso a paso devuelve a    62,5% de los prompts
                        la salida los hechos «borrados»          recuperan los hechos diana
Ataque a modelo de      Las trazas largas son una superficie     Trazas convincentes pero
razonamiento            de optimizacion debil durante el         enganosas; respuestas
                        propio desaprendizaje                    finales erroneas

El resultado sobre la cuantización es el más llamativo. Como un desaprendizaje que preserva la utilidad solo perturba los pesos con suavidad, convertir el modelo desaprendido a 4-bit — un paso de despliegue rutinario — restaura en promedio cerca del 83 % del conocimiento «olvidado», frente al ~21 % retenido en precisión completa. REBEL ataca por el lado del prompt: un bucle evolutivo hace evolucionar consultas adversarias que extraen el saber residual, alcanzando tasas de éxito de hasta 60 % en TOFU y 93 % en WMDP, mientras que consultas inocuas habrían calificado a los mismos modelos como «correctamente desaprendidos». No se necesita ningún payload para entender la lección, y aquí no se reproduce ninguno.

Por qué importa

La superficie de riesgo es doble. Por el lado de la privacidad, una organización que ejecuta desaprendizaje para satisfacer una solicitud de supresión o un derecho al olvido puede afirmar ante el regulador y los usuarios que los datos han desaparecido cuando son recuperables por cualquiera que cuantice el modelo o lo consulte con astucia. Por el lado de la seguridad, las cifras de WMDP son las más inquietantes: conocimiento peligroso que un equipo creía haber eliminado puede resurgir a tasas altas, sobre todo tras la cuantización que practica casi todo despliegue de modelo abierto.

El punto de fondo es metodológico. Una defensa que solo se mide frente a la prueba más fácil parecerá mucho más sólida de lo que es. El trabajo de 2026 sobre modelos de razonamiento agudiza esto: a medida que los modelos aprenden a «pensar» en cadenas largas, estas crean una nueva superficie de extracción — el mismo razonamiento que mejora la capacidad ofrece al atacante más lugares donde recuperar el contenido suprimido. Un desaprendizaje evaluado con preguntas inocuas de un solo turno es, de hecho, teatro de seguridad.

Defensas

No tratar el desaprendizaje como un borrado. Para una eliminación real o el cumplimiento, la única garantía robusta sigue siendo no entrenar sobre el dato, o reentrenar sin él. El desaprendizaje es una mitigación, no un botón de «eliminar».
Evaluar de forma adversaria, no inocua. Probar los modelos desaprendidos con sondas de paráfrasis, multironda y de tipo razonamiento — y con atacantes evolutivos como REBEL — no solo con preguntas directas. Informar la tasa de éxito de recuperación, no solo la pérdida de olvido inocua.
Incluir la cuantización en el modelo de amenaza. Medir la recuperación de conocimiento en las precisiones que realmente se despliegan (4-bit, 8-bit), ya que el 4-bit puede deshacer el desaprendizaje mientras que el 8-bit a menudo no.
Preferir un desaprendizaje robusto. Los métodos que aplanan el paisaje de pérdida alrededor del punto desaprendido (sharpness-aware minimization y sucesores) resisten mejor, según lo reportado, el reaprendizaje y la recuperación que los métodos de minimización puntual.
Combinar con control de acceso. Donde el contenido peligroso o privado no deba filtrarse, asociar el desaprendizaje con filtrado de salidas, restricciones de recuperación y privilegio mínimo en lugar de confiar en que el modelo haya olvidado de verdad.

Estado

Trabajo	Referencia	Fecha	Conclusión reportada
Recuperación por cuantización	arXiv:2410.16454 (ICLR 2025)	2024-10	La cuantización 4-bit restaura ~83 % del saber olvidado
Ataque por elicitación de razonamiento	arXiv:2506.17279	2025-06	62,5 % de los prompts diseñados recuperan hechos diana
SoK: desaprendizaje para LLM	arXiv:2506.09227	2025-06	Sistematiza la recuperación como debilidad estructural
REBEL	arXiv:2602.06248	2026-02	Recuperación evolutiva hasta 60 % (TOFU) / 93 % (WMDP)
Vulnerabilidad de desaprendizaje en LRM	arXiv:2604.04255	2026-04	Las trazas de razonamiento, nueva superficie de ataque

El punto duradero y transferible no es un fallo aislado de un método aislado: es que la medición del campo ha sobreestimado el olvido de forma constante. A través de la cuantización, los prompts adversarios y las sondas de razonamiento — y ahora los modelos de razonamiento en particular — el conocimiento que los benchmarks inocuos llaman «desaprendido» vuelve una y otra vez. Hasta que la evaluación incluya de forma rutinaria estos canales de recuperación, una afirmación de desaprendizaje debe leerse como «más difícil de recuperar», no como «eliminado».