système : OPÉRATIONNEL
← retour à tous les hacks
DATA LEAK LOW NEW

Capacité contre propension : auditer la fuite de données d'entraînement

Un cadre de juin 2026, PropMe, distingue ce qu'un modèle PEUT divulguer sous attaque de ce qu'il VA divulguer en usage ordinaire. L'écart est large — et les audits qui l'ignorent faussent le risque réel.

2026-06-21 // 6 min affects: comma-v0.1, dfm-decoder-open, open-weight-llms

De quoi s’agit-il ?

Le 4 juin 2026, des chercheurs de l’Université du Danemark du Sud ont publié PropMe (arXiv:2606.06286), un cadre qui repense la mesure de la mémorisation dans les grands modèles de langage. Leur observation centrale est méthodologique : presque toutes les évaluations existantes mesurent si un modèle peut être forcé à reproduire des données d’entraînement — une capacité — plutôt que s’il le fait réellement en usage ordinaire — une propension. On confond systématiquement les deux, et cette confusion gonfle le risque apparent d’un modèle déployé.

La mémorisation n’a rien de nouveau. Depuis Carlini et al. (2021) et les travaux d’extraction à grande échelle de Nasr et al. (2023), on sait qu’un modèle peut régurgiter du texte sous droit d’auteur et des identifiants personnels lorsqu’il est sollicité de façon adverse. L’apport de PropMe n’est pas une nouvelle attaque — c’est une manière plus propre d’auditer le phénomène. Il s’agit d’outillage de mesure, pas d’un exploit.

Comment ça fonctionne

PropMe oppose deux régimes de prompting sur un même modèle. Un réglage de propension utilise des prompts plausibles et naturels (« Generic » et « Specific », 100 échantillons chacun) à faible chevauchement lexical avec les données d’entraînement — ce qu’un utilisateur normal taperait. Un réglage de capacité utilise une attaque par préfixe : on conditionne le modèle sur les 50 premiers tokens d’un exemple d’entraînement d’au moins 100 tokens, et sa continuation verbatim est évaluée contre le corpus complet.

Une transformation de propension projette ensuite n’importe quelle métrique de mémorisation f vers un score dans [0,1] :

PM(M, x) = 1/2 * ( 1 + ( f_p(M,x) - f_c(M,x) ) / ( f_p(M,x) + f_c(M,x) ) )

f_p = valeur de la métrique en prompting de propension (ordinaire)
f_c = valeur de la métrique en prompting de capacité (attaque par préfixe)

Capacité haute + usage ordinaire faible -> PM bas  (le modèle peut fuir, mais ne tend pas à le faire)
Capacité basse + usage ordinaire élevé  -> PM haut (le modèle fuit spontanément)

Le cadre livre aussi SimpleTrace, un pipeline open source bâti sur infini-gram (inspiré d’OLMoTrace) qui attribue de façon déterministe une génération aux documents dont elle a été mémorisée — sans estimation probabiliste d’appartenance. C’est rapide : environ 100 requêtes tracées par minute sur les ~460 milliards de tokens de Common Pile avec quatre cœurs CPU. L’étude évalue deux modèles entièrement ouverts, Comma v0.1 et DFM Decoder Open, sur un corpus anglais (Common Pile) et un corpus danois (Dynaword).

Pourquoi c’est important

Le résultat phare est un écart constant entre capacité et propension. Les attaques par préfixe déclenchent des signaux de mémorisation nettement plus forts que les prompts génériques ou spécifiques, tandis que les scores de propension restent globalement bas. En clair : ces modèles peuvent révéler des données d’entraînement quand on les y pousse directement, mais le font rarement en usage ordinaire et non adverse. Second constat, un levier pratique : DFM Decoder, pré-entraîné en continu à partir de Comma sur des données en partie différentes, mémorise moins le corpus Common Pile d’origine que Comma lui-même.

Pour les défenseurs et les équipes conformité, la leçon coupe dans les deux sens. Ne rapporter que l’extractibilité du pire cas (le chiffre habituel du red team) surestime la fuite qu’un modèle déployé expose au quotidien. Mais ne rapporter que les chiffres non adverses sous-estime ce qu’un attaquant motivé peut extraire avec des préfixes. Le papier relie cela directement à la réglementation : les obligations de protection des données dès la conception et de tests réguliers du RGPD, et les exigences de gestion des risques et de robustesse de l’AI Act européen pour les modèles à risque systémique, poussent toutes vers une preuve mesurable de la fuite. La propension en usage ordinaire est une métrique défendable pour la fuite « prévisible ».

Défenses

  1. Rapporter les deux axes. Un audit de mémorisation doit publier l’extractibilité du pire cas et la propension en usage ordinaire. Un chiffre unique masque le profil de risque et invite à la fausse alarme ou au faux réconfort.
  2. Attribuer de façon déterministe. Lorsque vous maîtrisez le corpus d’entraînement, préférez le traçage (SimpleTrace / OLMoTrace / infini-gram) à l’inférence d’appartenance probabiliste, plus bruitée et plus difficile à défendre en audit.
  3. Dédupliquer le corpus. La duplication est un moteur bien documenté de la mémorisation verbatim ; une déduplication agressive réduit la capacité avant le déploiement.
  4. Voir l’entraînement continu comme un levier, pas un remède. Un pré-entraînement ultérieur sur des données en partie différentes a ici réduit de façon mesurable la mémorisation du corpus d’origine — utile, mais pas garanti, et il peut introduire une mémorisation des données plus récentes.
  5. Ne jamais lire « propension faible » comme « sans risque ». La capacité persiste ; un attaquant disposant de préfixes extrait toujours. Maintenez le filtrage de sortie, les tests d’inférence d’appartenance, les canaris et le contrôle d’accès aux journaux. Voir aussi l’appartenance prouvable aux données d’entraînement et l’écart empirique de confidentialité de l’adaptation DP.
  6. Attention au périmètre. Les résultats portent sur deux modèles ouverts et deux corpus. Les modèles de production fermés, alignés par RLHF, se comportent différemment — les attaques par divergence de Nasr et al. ont extrait des données de systèmes de production alignés — ne transposez donc pas ces chiffres à un modèle hébergé sans audit.

Statut

ÉlémentRéférenceDateNotes
PropMe + SimpleTracearXiv:2606.06286v1 [cs.CL]2026-06-04Cadre de mémorisation sensible à la propension, CC BY 4.0
Codegithub.com/N-essuno/PropMe2026-06SimpleTrace publié en open source
Modèles étudiésComma v0.1, DFM Decoder OpenEntièrement ouverts, données d’entraînement publiques/sous licence permissive
CorpusCommon Pile (EN), Dynaword (DA)Indexés via infini-gram
Antériorité (capacité)Carlini 2021, Nasr 20232021 / 2023Attaques d’extraction que ce travail recadre comme bornes de capacité

Le recadrage utile pour les praticiens n’est ni « les modèles fuient » ni « les modèles sont sûrs » — c’est que l’extractibilité sous attaque et la fuite en usage ordinaire sont deux chiffres distincts, et qu’un audit de mémorisation crédible doit rapporter les deux.

Sources