DEFENSE MEDIUM NEW

后门遗忘可泛化：移除一个触发器能抑制其他后门

2026 年 6 月的一篇论文表明，教会大模型忽略一个后门触发器，也能削弱其他从未被针对的后门——前提是它们的内部激活偏移足够接近，并用一个新指标 CASD 来度量。

2026-06-21 // 5 min affects: open-weight-llms, fine-tuned-llms, pretrained-llms

这是什么？

后门会在训练或微调阶段植入一个隐藏的触发器（trigger）：模型对干净输入表现正常，但一旦触发器出现，就会输出攻击者指定的内容。防御方的难题在于，模型到手时通常没有任何线索表明它是否被植入后门、携带多少个触发器，或触发器长什么样。现有的清除防御大多一次只处理一个后门，并且假设触发器已知——而这恰恰是攻击者隐藏得最好的信息。

论文 Backdoor Unlearning Generalization: A Path Toward the Removal of Unknown Triggers in LLMs（arXiv:2606.03785，2026 年 6 月发布）报告了一个改变清除思路的实证发现：通过遗忘（unlearning）来中和后门是会「泛化」的。教会模型忽略单个触发器，也可以抑制其他从未被显式针对的后门。这是一项以测量为依据的防御性研究，而非攻击教程。

工作原理

作者研究了同时携带多个后门的模型，这些后门在训练的不同阶段被注入——既有预训练阶段，也有持续预训练（continual pretraining）阶段。随后他们通过遗忘逐个移除后门，并观察其余后门的变化。

为了解释这种连带抑制何时发生，他们提出了 Cross Activation Shift Distance（CASD） 这一指标，用以量化两次不同训练在模型内部引起的变化之间的距离。直觉是：每个后门被触发时，都会把内部激活推向某个特定方向；如果两个后门把激活推向「相近」的方向，那么抵消其中一个的微调往往会顺带抵消另一个。

报告的结果包括：

当激活偏移接近时，遗忘会泛化。 CASD 能预测哪些后门会被一并抑制：两个后门之间的激活偏移距离越小，移除其一对另一个的削弱越强。
抑制可跨越训练阶段。 它既发生在同一阶段内部，也发生在阶段之间——在持续预训练阶段植入的后门，可以通过遗忘一个在预训练阶段引入的后门而被削弱，反之亦然。
该效应在多个模型家族上成立。 该现象在三个不同的模型家族上都被观察到，说明这更可能是后门编码方式的结构性属性，而非单一架构的偶然产物。

这一结果与 2026 年 6 月另一项工作互为补充——「诱饵后门」防御（arXiv:2606.11648），后者刻意植入并移除一个可控后门，从而把未知后门一起拖下去。两条研究路线都建立在同一观察之上：目标相似的后门会收敛到共享的内部通路。

为何重要

大多数防御都试图「找到」触发器——重建它、标记异常输入，或扫描权重。这正是脆弱之处：一种全新形态的触发器就能击败按已知形态调校的检测器。而一个能泛化的抑制效应指向相反的方向。如果移除一个后门能可靠地削弱与之结构相近的后门，防御方就能清理那些无法完全审计的模型——这正是任何使用开放权重检查点、社区微调模型或供应商交付模型的人所处的真实处境。

它也缓和了一个已知的担忧。Anthropic 的 Sleeper Agents 工作（arXiv:2401.05566）表明，某些后门能在标准安全训练、甚至对抗训练后存活。泛化结果并不否定这一点——它表明，由「后门在激活空间中真实所在位置」引导的有针对性遗忘，其行为不同于通用的安全微调，并且能触及防御方从未见过的触发器。

防御措施

面向部署或微调大模型团队的具体要点：

把继承来的权重视为不可信。 一般无法证明下载的模型是干净的。在模型接入流程中加入一个净化环节，而不要只依赖来源信誉。
优先采用与触发器无关的清除方法。 依赖恢复确切触发器的防御在面对新形态时会失效；面向机制层面的清除退化得更平滑。
用激活距离信号来排序优先级。 像 CASD 这样的指标，有助于估计某次遗忘很可能清除了哪些残留后门，又很可能漏掉了哪些。
始终在衡量 ASR 的同时衡量效用。 在清除前后同时跟踪攻击成功率与良性任务准确率；一个毁掉性能的清除是无法上线的。
每次微调后都要重测。 每一次在外部数据上的训练都是一次新的注入机会。在每个模型版本上都重新运行后门与越狱评测。
保持纵深防御。 模型层面的清除只是一层。将其与输出过滤、工具调用授权以及最小权限的智能体设计结合起来，使残留后门的影响半径受限。

状态

项目	详情
论文	Backdoor Unlearning Generalization: A Path Toward the Removal of Unknown Triggers in LLMs
arXiv 编号	2606.03785
发布	2026 年 6 月
类型	实证发现 + 分析——无可用攻击载荷
核心思想	当内部激活偏移接近时，遗忘一个后门可抑制其他后门
新指标	Cross Activation Shift Distance（CASD）
测试范围	三个模型家族；在预训练与持续预训练阶段注入的后门
关键结论	跨后门抑制可在训练阶段内部与阶段之间泛化，并由 CASD 预测

后门遗忘可泛化：移除一个触发器能抑制其他后门

这是什么？

工作原理

为何重要

防御措施

状态

Sources