系统:运行中
← 返回所有攻击
RESEARCH MEDIUM NEW

遗忘却可复原:为何大模型的机器遗忘总是泄漏回来

2025-2026 年的多项研究表明,大模型中被「遗忘」的知识普遍可被复原——通过量化、对抗性提示,乃至如今的推理轨迹。把机器遗忘当作擦除是一个错误。

2026-06-08 // 6 min affects: open-weight-llms, llama, reasoning-models

这是什么?

机器遗忘(machine unlearning)是一类试图让已训练语言模型「忘掉」其所学某一特定片段的技术:删除请求后的个人数据、受版权保护的文本,或像 WMDP 基准中生物与网络危害内容那样的危险知识。它越来越多地被当作合规与安全控制手段:与其每次需要移除某些内容就从头重训模型(代价高昂),不如运行一套遗忘流程,以较低成本压制目标内容。

从 2024 到 2026 年,一条持续的研究脉络总是得出同一个令人不安的结论:大多数遗忘方法并未擦除知识,而是把它藏起来——而且藏得很浅。最新的一篇,Towards Unveiling Vulnerabilities of Large Reasoning Models in Machine Unlearning(arXiv:2604.04255,爱荷华州立大学,发表于 2026 年 4 月),将问题延伸到推理模型。它与 REBEL(arXiv:2602.06248,2026 年 2 月)、ICLR 2025 的量化论文、一项逐步推理攻击(2025 年 6 月)以及一篇知识系统化综述(2025 年 6 月)一道,表明「遗忘」并不等同于「消失」。

工作原理

核心问题在于评估。标准的遗忘基准用直白、无害的问题(「X 是谁?」)查询模型,当答案不再出现时即判定成功。但压制模型最可能的输出,并不等于移除底层表征。多条独立的复原通道都在利用这一落差:

复原通道          所利用之处                              所报告的效果
--------------    ------------------------------------    --------------------------
量化              遗忘只对权重做轻微扰动;低精度          被保留的遗忘知识从约
                  舍入抵消了这种扰动                      21% 升至约 83%(4-bit)
对抗性提示        无害指标遗漏了更强提示可触及的          REBEL:ASR 在 TOFU 上达
(进化式搜索)    残留知识                                60%,WMDP 上达 93%
推理探测          逐步诱导把「已擦除」的事实              62.5% 的精心构造提示
                  重新拉回输出                            复原了目标事实
推理模型攻击      在遗忘过程本身中,长推理轨迹            令人信服但具误导性的
                  是薄弱的优化面                          轨迹;最终答案错误

量化结果最为醒目。由于保留效用的遗忘只温和地扰动权重,仅仅把遗忘后的模型转为 4-bit——一个常规部署步骤——便平均复原了约 83% 的「被遗忘」知识,而全精度下仅保留约 21%。REBEL 则从提示侧发起攻击:一个进化循环演化出对抗性查询,把残留知识重新提取出来,攻击成功率在 TOFU 上达 60%、WMDP 上达 93%,而无害查询本会将同一批模型判为「已成功遗忘」。理解这一教训无需任何攻击载荷,本文也不复现任何载荷。

为何重要

风险面是双向的。在隐私一侧,为满足删除或被遗忘权请求而运行遗忘的机构,可能在向监管者和用户声称数据已消失,而实际上任何人只要量化模型或巧妙提问即可复原。在安全一侧,WMDP 数字最为令人警觉:安全团队以为已剥离的危险知识,可能以高比例重现,尤其是在几乎每个开放权重部署都会进行的量化之后。

更深层的要点是方法论的。一项只在最容易的测试下被衡量的防御,看起来会远比实际更稳固。2026 年关于推理模型的工作加剧了这一点:随着模型被训练以长链「思考」,这些链条创造了新的提取面——提升能力的推理同时也给了攻击者更多可以把被压制内容诱导回来的位置。用无害的单轮问题评估的遗忘,实际上是一种安全表演。

防御

  1. 不要把遗忘当作擦除。 对真正的删除或合规而言,唯一稳健的保证仍是不在该数据上训练,或不含该数据地重训。遗忘是一种缓解措施,而非「删除」按钮。
  2. 以对抗方式评估,而非无害方式。 用改写、多轮和推理式探测——以及像 REBEL 这样的进化式攻击者——测试遗忘后的模型,而不仅是直接提问。报告复原的攻击成功率,而不仅是无害的遗忘损失。
  3. 把量化纳入威胁模型。 在你实际发布的精度(4-bit、8-bit)下衡量遗忘知识的复原,因为 4-bit 可能撤销遗忘,而 8-bit 往往不会。
  4. 优先采用具鲁棒性的遗忘方法。 据报告,在遗忘点周围展平损失地形的方法(sharpness-aware minimization 及其后续)比逐点最小化方法更能抵抗再学习与复原。
  5. 与访问控制叠加。 在危险或私密内容绝不可泄漏之处,将遗忘与输出过滤、检索限制和最小权限结合,而非依赖模型真的已经忘记。

现状

工作参考日期所报告的结论
量化复原arXiv:2410.16454(ICLR 2025)2024-104-bit 量化复原约 83% 的被遗忘知识
推理诱导攻击arXiv:2506.172792025-0662.5% 的构造提示复原目标事实
SoK:大模型遗忘综述arXiv:2506.092272025-06将复原系统化为结构性弱点
REBELarXiv:2602.062482026-02进化式复原 TOFU 达 60% / WMDP 达 93%
LRM 遗忘脆弱性arXiv:2604.042552026-04推理轨迹成为新的遗忘攻击面

可迁移的持久要点,并非某一方法中的某一缺陷:而是该领域的衡量方式一直在高估遗忘。跨越量化、对抗性提示与推理探测——如今尤其包括推理模型——无害基准称为「已遗忘」的知识不断回来。在评估常态化纳入这些复原通道之前,一项遗忘声明应被读作「更难检索」,而非「已移除」。

Sources