更新不一定更安全:跨代模型的非单调安全对齐
2026 年 5 月的一篇论文对四代 Gemma 进行红队测试,发现中间一代比其前代和后代都更易被越狱——安全性并非呈直线提升。
这是什么?
2026 年 5 月 30 日 提交至 arXiv 的一篇预印本(2606.00813)提出了一个令人不安的观察:一个模型家族的安全性并不会在代际之间可靠地逐代提升。作者对 Google 开放的 Gemma 家族的四个代际(约 7B 至 31B 参数)运行了一套自动化红队探测,发现中间一代对越狱的脆弱程度明显高于在它之前的旧模型,也高于在它之后的新模型。
论文报告的关键数据是:Gemma 3(12B) 的攻击成功率(ASR)为 68.7% ± 5.7%,明显高于其前代 Gemma 2(45.5% ± 7.2%) 和其后代 Gemma 4(33.9% ± 1.8%)。换言之,这条曲线先上升后下降。如果你曾假设”版本越新 = 模型越安全”,并从 Gemma 2 升级到 Gemma 3,那么你切换到的其实是一个更易越狱的系统,而非更难。作者将此称为非单调安全对齐。
工作原理
该研究采用一种名为 MAP-Elites 的质量-多样性进化搜索作为红队引擎。MAP-Elites 不是去优化单个最佳越狱,而是维护一个由多样化提示词组成的”档案库”,其中每条提示词都在攻击行为空间的不同区域取得成功。其产物并非单一 payload,而是每个模型上众多不同攻击的一张地图——这正是跨代比较有意义的原因:所衡量的是一片宽广的攻击面,而非某条侥幸生效的字符串。
第二个发现关于迁移。针对某一代进化出的攻击被重放到其他代上。它们以 44–46% 的比例迁移到 Gemma 3,但迁移到 Gemma 4 仅为 14–18%。这一差距是结果中令人鼓舞的部分:Gemma 4 的安全提升似乎能泛化到针对早期模型进化出的攻击分布之外,而不只是记住已知提示词的补丁。还需注意,某些危害类别——论文指出版权内容复制和部分网络犯罪类提示——在每一代上的成功率都接近 100%,提醒我们聚合 ASR 掩盖了那些对齐几乎没有改善的类别。
本文未复现任何可用的越狱字符串,论文的价值在于诊断而非进攻:它是一套测量方法,承接了针对已对齐模型的可迁移对抗攻击这一成熟研究脉络(Zou 等,2023)。
为何重要
大多数升级决策都隐含地假设了单调改进:新版本在基准上更好,因此更安全,因此可以无风险替换。这篇论文表明该假设并不可靠。指令微调数据的变化、新的对话模板、能力跃升超过安全训练、或拒绝行为的偏移,都可能引入回退——而这些都不会在能力排行榜上显现。对于在生产中锁定某个模型版本的人来说,“我们升级到了最新版”并不能证明安全性提升,反而可能恰恰相反。
这一发现也削弱了只评估最新模型的惯例。若安全性是非单调的,你的威胁模型就必须考虑你实际部署的具体版本——包括仍锁定在长期运行系统中的较旧版本。
防御
- 每次版本升级都重新测试。 把模型升级当作一次代码变更:针对你将要发布的确切版本运行你的越狱与危害类别评测套件,并以结果作为发布闸门。不要沿用上一版本的安全放行结论。
- 测量一个分布,而非单条提示。 关注多样性的红队(质量-多样性/基于档案的搜索)能暴露单条优化攻击会遗漏的广泛弱点。保留一份有效类别的档案,并对每个新版本重放。
- 把迁移作为前瞻信号。 如果上一代的攻击仍能很好地迁移到新模型,其安全提升很可能是表层的。低迁移率是真正泛化的微弱证据。
- 跟踪各类别的 ASR,而不只是均值。 聚合数字会掩盖那些跨代仍接近 100% 的类别(论文指出版权和部分网络犯罪类提示)。应以外部控制——输出过滤、工具与检索的门控——来防御这些类别,而非信赖模型层面的拒绝。
- 锁定并记录版本。 准确记录你评估和部署的模型构建版本,以免供应商侧的静默更新悄然改变你的风险态势。
状态
| 项目 | 详情 |
|---|---|
| 论文 | ”Cross-Generational Transfer of Adversarial Attacks Reveals Non-Monotonic Safety Alignment in LLMs” |
| arXiv 编号 | 2606.00813 |
| 提交日期 | 2026 年 5 月 30 日 |
| 研究模型 | Google Gemma,四个代际(约 7B–31B) |
| 方法 | MAP-Elites 质量-多样性红队 |
| 关键结果 | Gemma 3(12B)ASR 68.7% > Gemma 2 45.5%,> Gemma 4 33.9% |
| 跨代迁移 | 至 Gemma 3 为 44–46%;至 Gemma 4 为 14–18% |
| 性质 | 防御性测量研究——未发布任何利用代码 |