序列式投毒:将后门拆分到后训练的多个阶段
2026年6月3日的一篇论文显示,分散在 SFT 数据与偏好数据中的投毒——单独看每个阶段都微不足道——会组合成一个可用的后门。逐阶段审计制造出「单一攻击者错觉」。
这是什么?
2026年6月3日,来自滑铁卢大学、渥太华大学、芝加哥大学和 Vector Institute 的研究者发布了 Sequential Data Poisoning in LLM Post-Training(arXiv:2606.04929)。论文研究了一个大多数投毒研究忽视的威胁模型:现代对齐并非单一的训练任务,而是一条多阶段流水线——监督微调(SFT),随后通过 PPO 进行基于人类反馈的强化学习(RLHF),或进行直接偏好优化(DPO)。每个阶段都从不同的、可能不可信的来源获取数据。
核心结论被作者称为「单一攻击者错觉」:在单独审计每个阶段时看似无害的投毒贡献,跨阶段组合后可形成一个可靠的后门。按惯常做法分别审查 SFT 数据集和偏好数据集的团队,可能各自得出「看起来很干净」的结论,却仍交付了一个被攻陷的模型。
工作原理
该方案把后门分散到后训练流水线中,而非集中在单一数据集里。两个(或更多)攻击者各自向不同阶段注入投毒。论文描述了两种情形:
流水线 阶段1 (SFT) 阶段2 (RLHF/DPO) 单独效果 组合效果
------------ ------------------- ---------------------- -------------------- ----------------
SFT -> DPO 投毒 SFT 数据 投毒偏好数据 各自单独略微 可加;按比例拆分
提升 ASR 预算优于集中投放
SFT -> PPO 投毒 SFT 数据 投毒奖励模型(RM)数据 单阶段 ASR 近乎为零 后门仅在组合时浮现
在 SFT → DPO 情形下,各阶段贡献大致可加:每个阶段的投毒都会提升攻击成功率(ASR),论文发现将固定的投毒预算拆分到两个阶段,效果优于全部投放到任一单阶段。SFT → PPO 情形更为鲜明也更令人担忧:SFT 投毒与奖励模型投毒单独都无法产生显著 ASR,但二者组合却使后门浮现。恶意行为在单个数据集层面不可见,只在阶段之间的相互作用中显现。
此处不复现任何可重现的触发字符串或投毒配方——权威参考是论文本身。要点是结构性的:你真正关心的安全边界是整条后训练流水线,而非其中任何单一数据集。
为何重要
这一结论重塑了一个防御假设。此前的投毒研究——包括 Anthropic 在 2025 年的发现,即少量且近乎恒定数量的样本即可投毒任意规模的模型,以及后续关于近乎恒定投毒数量的分析——已表明所需的绝对投毒预算低得惊人。序列式投毒又增加了第二个维度:该预算可以沿采购边界被切分,使得任何一次审计都不会看到足以触发警报的量。
这与 2026 年对齐数据的实际采购方式高度吻合。SFT 指令数据、人类偏好标注与奖励模型训练数据往往来自不同供应商、众包平台、抓取语料或合成生成流水线——不同团队、不同信任假设、每一步不同的审查。只影响偏好数据集的供应商,与只影响 SFT 混合数据的供应商,单独看都能通过审查。风险藏在组合之中,而这恰恰是逐阶段数据治理无法检验的。
防御
这里没有补丁——这是一类关于对齐流水线如何被组装的风险。缓解措施围绕来源溯源与端到端评估展开。
-
端到端评估流水线,而非逐阶段评估。 论文的核心教训是逐阶段数据审计会遗漏交互效应。请针对最终的后训练模型,使用独立构建的探针集运行后门与触发评估——并将干净的 SFT 审计与干净的偏好审计视为必要而非充分条件。
-
跨每个阶段追踪数据来源。 为 SFT 数据、偏好数据与奖励模型数据维护一份物料清单(bill of materials):来源、供应商、采集方法与审查状态。序列式投毒利用的正是这些阶段被独立治理的事实。跨阶段交叉核对供应商,可在同一上游主体接触到一个以上阶段时发出告警。
-
按阶段分散并隔离供应商。 如果同一供应商同时提供你的 SFT 语料与偏好标注,单一被攻陷的供应商便掌握了攻击的两半。分离供应商——并限制单一来源在某一阶段中的占比——会抬高跨阶段合谋的门槛。
-
预留可信的内部评估数据。 保留一份无投毒、内部精心构建的触发式与行为式探针基准,绝不进入任何训练集。在每次重大的后训练变更后重新运行它。PPO 的结果表明,有些后门只在组合后才出现,因此这道关卡必须设在最后一个阶段之后。
-
优先选择可审计的偏好与奖励流水线。 RLHF 奖励模型数据与 DPO 偏好对比 SFT 样本更难检查,但论文显示它们对攻击起着关键作用。请以对待指令数据同等的严谨度,对偏好与 RM 数据进行抽样、记录与抽查。
-
针对组合显式开展红队。 将「拆分预算」式投毒纳入你的内部红队手册:假设攻击者只能接触单一阶段,并测试两个如此受限的攻击者是否会组合出你的逐阶段筛查会放行的东西。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| Sequential Data Poisoning in LLM Post-Training | arXiv:2606.04929 | 2026-06-03 | 提出「单一攻击者错觉」威胁模型 |
| SFT → DPO 情形 | 同一论文 | 2026-06-03 | 可加;拆分固定预算优于集中投放 |
| SFT → PPO 情形 | 同一论文 | 2026-06-03 | 任一单阶段都不显著;后门仅在组合时出现 |
| 近乎恒定的投毒数量 | arXiv:2510.07192 | 2025-10 | 背景:所需绝对投毒预算很低 |
| 小样本投毒 | Anthropic Research | 2025-10 | 背景:少量样本即可投毒任意规模的模型 |
应当记住的判断不是「又一篇投毒论文」,而是:对一个被投毒模型进行审计的单位,必须是整条后训练流水线——因为攻击者可以让每一份单独贡献都低于任何单次审查能够捕获的阈值,再让各个阶段去完成其余的工作。