RESEARCH MEDIUM NEW

Oublié mais récupérable : pourquoi le désapprentissage des LLM fuit toujours

Plusieurs travaux de 2025-2026 montrent que les connaissances « désapprises » d'un LLM restent récupérables — par quantification, prompts adverses, et désormais via les traces de raisonnement. Traiter le désapprentissage comme un effacement est une erreur.

2026-06-08 // 7 min affects: open-weight-llms, llama, reasoning-models

De quoi s’agit-il ?

Le désapprentissage (machine unlearning) regroupe les techniques qui cherchent à faire « oublier » à un modèle une portion précise de ce qu’il a appris : les données d’une personne après une demande de suppression, du texte sous droits, ou des connaissances dangereuses comme le contenu biologique et cyber du benchmark WMDP. On l’invoque de plus en plus comme contrôle de conformité et de sûreté : plutôt que de réentraîner un modèle de zéro (coûteux) à chaque retrait, on exécute une procédure de désapprentissage qui supprime la cible à moindre coût.

Une lignée constante de travaux, de 2024 à 2026, aboutit toujours à la même conclusion gênante : la plupart des méthodes de désapprentissage n’effacent pas la connaissance, elles la cachent — et la dissimulation est superficielle. Le travail le plus récent, Towards Unveiling Vulnerabilities of Large Reasoning Models in Machine Unlearning (arXiv:2604.04255, Iowa State University, publié en avril 2026), étend le problème aux modèles de raisonnement. Il rejoint REBEL (arXiv:2602.06248, février 2026), l’article ICLR 2025 sur la quantification, une attaque par raisonnement étape par étape (juin 2025) et une systématisation des connaissances (juin 2025) pour montrer qu’« oublié » n’est pas synonyme de « disparu ».

Comment ça marche

Le problème central est celui de l’évaluation. Les benchmarks de désapprentissage interrogent le modèle avec des questions directes et anodines (« Qui est X ? ») et concluent au succès lorsque la réponse n’apparaît plus. Mais supprimer la sortie la plus probable d’un modèle n’équivaut pas à retirer la représentation sous-jacente. Plusieurs canaux de récupération indépendants exploitent cet écart :

Canal de récupération   Ce qu'il exploite                        Effet rapporté
----------------------  ---------------------------------------  ----------------------------
Quantification          Le désapprentissage ne déplace que       Connaissance retenue passe
                        légèrement les poids ; l'arrondi          de ~21% a ~83% en 4-bit
                        basse précision annule ce déplacement
Prompts adverses        Les métriques anodines ratent le savoir  REBEL : ASR jusqu'a 60%
(recherche evolutive)   résiduel atteignable par des prompts     (TOFU), 93% (WMDP)
                        plus durs
Sondes de raisonnement  L'élicitation pas-à-pas ramène en        62,5% des prompts conçus
                        sortie les faits « effacés »             récupèrent les faits cibles
Attaque modèle de       Les longues traces sont une surface      Traces convaincantes mais
raisonnement            d'optimisation faible pendant le         trompeuses ; réponses finales
                        désapprentissage lui-même                fausses

Le résultat sur la quantification est le plus frappant. Comme un désapprentissage préservant l’utilité ne perturbe les poids que légèrement, la simple conversion du modèle désappris en 4-bit — une étape de déploiement courante — restaure en moyenne environ 83 % de la connaissance « oubliée », contre ~21 % retenus en pleine précision. REBEL attaque côté prompt : une boucle évolutive fait évoluer des requêtes adverses qui ressortent le savoir résiduel, atteignant des taux de succès jusqu’à 60 % sur TOFU et 93 % sur WMDP, alors que des requêtes anodines auraient classé les mêmes modèles comme « correctement désappris ». Aucun payload n’est nécessaire pour comprendre la leçon, et aucun n’est reproduit ici.

Pourquoi c’est important

La surface de risque est double. Côté vie privée, une organisation qui exécute un désapprentissage pour satisfaire une demande de suppression ou un droit à l’effacement peut affirmer au régulateur et aux utilisateurs que les données ont disparu alors qu’elles sont récupérables par quiconque quantifie le modèle ou le sollicite habilement. Côté sûreté, les chiffres WMDP sont les plus inquiétants : un savoir dangereux qu’une équipe de sécurité croyait avoir retiré peut resurgir à des taux élevés, surtout après la quantification que pratique presque tout déploiement de modèle ouvert.

Le point de fond est méthodologique. Une défense que l’on ne mesure que face au test le plus facile paraîtra bien plus solide qu’elle ne l’est. Les travaux 2026 sur les modèles de raisonnement aiguisent ce constat : à mesure que les modèles apprennent à « réfléchir » en longues chaînes, celles-ci créent une nouvelle surface d’extraction — le raisonnement qui améliore la capacité offre aussi à l’attaquant davantage de points où ramener le contenu supprimé. Un désapprentissage évalué par des questions anodines à un tour relève, de fait, du théâtre de sécurité.

Défenses

Ne pas traiter le désapprentissage comme un effacement. Pour une suppression réelle ou la conformité, la seule garantie robuste reste de ne pas entraîner sur la donnée, ou de réentraîner sans elle. Le désapprentissage est une mitigation, pas un bouton « supprimer ».
Évaluer de façon adverse, pas anodine. Tester les modèles désappris avec des sondes par paraphrase, multi-tours et de type raisonnement — et avec des attaquants évolutifs comme REBEL — pas seulement par questions directes. Rapporter le taux de succès de récupération, pas seulement la perte d’oubli anodine.
Inclure la quantification dans le modèle de menace. Mesurer la récupération de connaissance aux précisions réellement déployées (4-bit, 8-bit), car le 4-bit peut défaire le désapprentissage alors que le 8-bit souvent non.
Préférer un désapprentissage robuste. Les méthodes qui aplatissent le paysage de perte autour du point désappris (sharpness-aware minimization et successeurs) résistent mieux, selon les rapports, au réapprentissage et à la récupération que les méthodes de minimisation ponctuelle.
Combiner avec un contrôle d’accès. Là où du contenu dangereux ou privé ne doit pas fuir, associer le désapprentissage à un filtrage des sorties, des restrictions de récupération et un moindre privilège plutôt que de se fier à un oubli supposé du modèle.

État des lieux

Travail	Référence	Date	Conclusion rapportée
Récupération par quantification	arXiv:2410.16454 (ICLR 2025)	2024-10	La quantification 4-bit restaure ~83 % du savoir oublié
Attaque par élicitation de raisonnement	arXiv:2506.17279	2025-06	62,5 % des prompts conçus récupèrent les faits cibles
SoK : désapprentissage des LLM	arXiv:2506.09227	2025-06	Systématise la récupération comme faiblesse structurelle
REBEL	arXiv:2602.06248	2026-02	Récupération évolutive jusqu’à 60 % (TOFU) / 93 % (WMDP)
Vulnérabilité désapprentissage des LRM	arXiv:2604.04255	2026-04	Les traces de raisonnement, nouvelle surface d’attaque

Le point durable et transposable n’est pas un défaut isolé d’une méthode isolée : c’est que la mesure du domaine a constamment surestimé l’oubli. À travers la quantification, les prompts adverses et les sondes de raisonnement — et désormais les modèles de raisonnement en particulier — un savoir que les benchmarks anodins disent « désappris » revient sans cesse. Tant que l’évaluation n’intègre pas ces canaux de récupération, une affirmation de désapprentissage doit se lire « plus difficile à retrouver », et non « retiré ».