Empoisonnement séquentiel : répartir une porte dérobée sur les étapes du post-entraînement
Un papier du 3 juin 2026 montre qu'un poison réparti entre données SFT et préférences — négligeable à chaque étape isolée — se combine en une porte dérobée fonctionnelle. Les audits par étape créent une « illusion de l'attaquant unique ».
De quoi s’agit-il ?
Le 3 juin 2026, des chercheurs de l’Université de Waterloo, de l’Université d’Ottawa, de l’Université de Chicago et du Vector Institute ont publié Sequential Data Poisoning in LLM Post-Training (arXiv:2606.04929). Le papier étudie un modèle de menace que la plupart des travaux sur l’empoisonnement ont ignoré : l’alignement moderne n’est pas un entraînement unique mais un enchaînement d’étapes — fine-tuning supervisé (SFT) suivi d’un apprentissage par renforcement à partir de retours humains (RLHF) via PPO, ou d’une optimisation directe des préférences (DPO). Chaque étape puise ses données dans une source différente, potentiellement non fiable.
Le résultat central est ce que les auteurs nomment l’« illusion de l’attaquant unique » : une contribution empoisonnée qui paraît inoffensive lorsqu’on audite chaque étape isolément peut se combiner, à travers les étapes, en une porte dérobée fiable. Les équipes qui contrôlent séparément le jeu SFT et le jeu de préférences — la pratique habituelle — peuvent chacune conclure « c’est propre » tout en livrant un modèle compromis.
Comment ça marche
Le dispositif répartit une porte dérobée sur le pipeline de post-entraînement au lieu de la concentrer dans un seul jeu de données. Deux adversaires (ou plus) contribuent chacun à une étape distincte. Le papier décrit deux régimes :
Pipeline Étape 1 (SFT) Étape 2 (RLHF/DPO) Effet isolé Effet combiné
------------ ------------------- ---------------------- -------------------- ----------------
SFT -> DPO poison données SFT poison préférences chacun augmente additif ; répartir
un peu l'ASR seul le budget bat la
concentration
SFT -> PPO poison données SFT poison modèle de ASR quasi nul porte dérobée
récompense (RM) pour chaque étape révélée seulement
en combinaison
Dans le cas SFT → DPO, les contributions sont à peu près additives : le poison de chaque étape augmente le taux de succès d’attaque (ASR), et le papier constate que répartir un budget de poison fixe sur les deux étapes fait mieux que de tout dépenser dans une seule. Le cas SFT → PPO est plus net et plus inquiétant : ni le poison SFT ni le poison du modèle de récompense ne produisent d’ASR significatif à eux seuls, mais leur combinaison fait émerger la porte dérobée. Le comportement malveillant est invisible au niveau de chaque jeu de données et n’apparaît que dans l’interaction entre étapes.
Aucune chaîne de déclenchement ni recette d’empoisonnement reproductible n’est reprise ici — la référence canonique est le papier lui-même. L’enseignement est structurel : la frontière de sécurité qui compte est le pipeline de post-entraînement dans son ensemble, pas un jeu de données isolé.
Pourquoi c’est important
Le résultat recadre une hypothèse défensive. Les travaux antérieurs sur l’empoisonnement — dont la découverte d’Anthropic en 2025 selon laquelle un nombre faible et quasi constant d’échantillons peut empoisonner des modèles de toute taille et l’analyse de suivi sur le nombre quasi constant de poisons — avaient déjà montré que le budget absolu requis est étonnamment faible. L’empoisonnement séquentiel ajoute un second axe : ce budget peut être fragmenté entre frontières d’approvisionnement de sorte qu’aucun audit ne voie jamais assez pour donner l’alerte.
Cela colle à la façon dont les données d’alignement sont réellement sourcées en 2026. Données d’instruction SFT, labels de préférences humaines et données d’entraînement du modèle de récompense proviennent souvent de fournisseurs différents, de plateformes de crowdsourcing, de corpus scrapés ou de pipelines de génération synthétique — équipes différentes, hypothèses de confiance différentes, revue différente à chaque étape. Un fournisseur qui n’influence que le jeu de préférences, et un autre qui n’influence que le mélange SFT, passent individuellement la revue. C’est la composition qui porte le risque, et c’est précisément ce que la gouvernance des données étape par étape ne teste pas.
Défenses
Il n’y a pas de correctif ici — il s’agit d’une classe de risque dans la manière d’assembler les pipelines d’alignement. Les mitigations portent sur la provenance et l’évaluation de bout en bout.
-
Évaluez le pipeline de bout en bout, pas étape par étape. La leçon centrale du papier est que les audits de données par étape manquent les effets d’interaction. Lancez les évaluations de portes dérobées et de déclencheurs sur le modèle post-entraîné final, contre un jeu de sondes construit indépendamment — et considérez un audit SFT propre et un audit de préférences propre comme nécessaires mais non suffisants.
-
Tracez la provenance des données sur chaque étape. Maintenez une nomenclature (bill of materials) pour les données SFT, de préférences et de modèle de récompense : source, fournisseur, méthode de collecte, statut de revue. L’empoisonnement séquentiel exploite le fait que ces étapes sont gouvernées indépendamment. Le recoupement des fournisseurs entre étapes permet de signaler quand un même acteur amont touche plus d’une étape.
-
Diversifiez et isolez les fournisseurs par étape. Si un seul prestataire fournit à la fois votre corpus SFT et vos labels de préférences, un unique fournisseur compromis détient les deux moitiés de l’attaque. Séparer les fournisseurs — et limiter la part d’une source dans une étape — relève le coût de la collusion inter-étapes.
-
Réservez des données d’évaluation internes et de confiance. Conservez un benchmark interne, exempt de poison, de sondes comportementales et de type déclencheur, qui n’entre jamais dans aucun jeu d’entraînement. Relancez-le après chaque changement majeur de post-entraînement. Le résultat PPO montre des portes dérobées qui n’apparaissent qu’après composition : le contrôle doit donc se situer après la dernière étape.
-
Privilégiez des pipelines de préférences et de récompense auditables. Les données du modèle de récompense RLHF et les paires de préférences DPO sont plus difficiles à inspecter que les exemples SFT, alors qu’elles sont déterminantes pour l’attaque selon le papier. Échantillonnez, journalisez et contrôlez les données de préférences et de RM avec la même rigueur que les données d’instruction.
-
Faites du red-teaming explicite sur la composition. Ajoutez l’empoisonnement « à budget réparti » à votre playbook de red team : supposez qu’un adversaire ne touche qu’une seule étape, et testez si deux adversaires aussi limités se combinent en quelque chose que votre filtrage par étape laisserait passer.
Statut
| Élément | Référence | Date | Notes |
|---|---|---|---|
| Sequential Data Poisoning in LLM Post-Training | arXiv:2606.04929 | 2026-06-03 | Introduit le modèle de l’« illusion de l’attaquant unique » |
| Régime SFT → DPO | Même papier | 2026-06-03 | Additif ; répartir un budget fixe bat la concentration |
| Régime SFT → PPO | Même papier | 2026-06-03 | Aucune étape seule n’est significative ; la porte dérobée n’apparaît qu’en combinaison |
| Nombre quasi constant de poisons | arXiv:2510.07192 | 2025-10 | Contexte : le budget absolu de poison requis est faible |
| Empoisonnement par petits échantillons | Anthropic Research | 2025-10 | Contexte : peu d’échantillons suffisent à empoisonner des modèles de toute taille |
À retenir : ce n’est pas « un papier d’empoisonnement de plus ». C’est que l’unité d’audit d’un modèle empoisonné doit être l’ensemble du pipeline de post-entraînement, car un adversaire peut maintenir chaque contribution individuelle sous le seuil que toute revue isolée détecterait — et laisser les étapes faire le reste.