RESEARCH MEDIUM NEW

更新不一定更安全：跨代模型的非单调安全对齐

2026 年 5 月的一篇论文对四代 Gemma 进行红队测试，发现中间一代比其前代和后代都更易被越狱——安全性并非呈直线提升。

2026-06-12 // 5 min affects: gemma-2, gemma-3, gemma-4

这是什么？

2026 年 5 月 30 日 提交至 arXiv 的一篇预印本（2606.00813）提出了一个令人不安的观察：一个模型家族的安全性并不会在代际之间可靠地逐代提升。作者对 Google 开放的 Gemma 家族的四个代际（约 7B 至 31B 参数）运行了一套自动化红队探测，发现中间一代对越狱的脆弱程度明显高于在它之前的旧模型，也高于在它之后的新模型。

论文报告的关键数据是：Gemma 3（12B） 的攻击成功率（ASR）为 68.7% ± 5.7%，明显高于其前代 Gemma 2（45.5% ± 7.2%） 和其后代 Gemma 4（33.9% ± 1.8%）。换言之，这条曲线先上升后下降。如果你曾假设”版本越新 = 模型越安全”，并从 Gemma 2 升级到 Gemma 3，那么你切换到的其实是一个更易越狱的系统，而非更难。作者将此称为非单调安全对齐。

工作原理

该研究采用一种名为 MAP-Elites 的质量-多样性进化搜索作为红队引擎。MAP-Elites 不是去优化单个最佳越狱，而是维护一个由多样化提示词组成的”档案库”，其中每条提示词都在攻击行为空间的不同区域取得成功。其产物并非单一 payload，而是每个模型上众多不同攻击的一张地图——这正是跨代比较有意义的原因：所衡量的是一片宽广的攻击面，而非某条侥幸生效的字符串。

第二个发现关于迁移。针对某一代进化出的攻击被重放到其他代上。它们以 44–46% 的比例迁移到 Gemma 3，但迁移到 Gemma 4 仅为 14–18%。这一差距是结果中令人鼓舞的部分：Gemma 4 的安全提升似乎能泛化到针对早期模型进化出的攻击分布之外，而不只是记住已知提示词的补丁。还需注意，某些危害类别——论文指出版权内容复制和部分网络犯罪类提示——在每一代上的成功率都接近 100%，提醒我们聚合 ASR 掩盖了那些对齐几乎没有改善的类别。

本文未复现任何可用的越狱字符串，论文的价值在于诊断而非进攻：它是一套测量方法，承接了针对已对齐模型的可迁移对抗攻击这一成熟研究脉络（Zou 等，2023）。

为何重要

大多数升级决策都隐含地假设了单调改进：新版本在基准上更好，因此更安全，因此可以无风险替换。这篇论文表明该假设并不可靠。指令微调数据的变化、新的对话模板、能力跃升超过安全训练、或拒绝行为的偏移，都可能引入回退——而这些都不会在能力排行榜上显现。对于在生产中锁定某个模型版本的人来说，“我们升级到了最新版”并不能证明安全性提升，反而可能恰恰相反。

这一发现也削弱了只评估最新模型的惯例。若安全性是非单调的，你的威胁模型就必须考虑你实际部署的具体版本——包括仍锁定在长期运行系统中的较旧版本。

防御

每次版本升级都重新测试。 把模型升级当作一次代码变更：针对你将要发布的确切版本运行你的越狱与危害类别评测套件，并以结果作为发布闸门。不要沿用上一版本的安全放行结论。
测量一个分布，而非单条提示。 关注多样性的红队（质量-多样性／基于档案的搜索）能暴露单条优化攻击会遗漏的广泛弱点。保留一份有效类别的档案，并对每个新版本重放。
把迁移作为前瞻信号。 如果上一代的攻击仍能很好地迁移到新模型，其安全提升很可能是表层的。低迁移率是真正泛化的微弱证据。
跟踪各类别的 ASR，而不只是均值。 聚合数字会掩盖那些跨代仍接近 100% 的类别（论文指出版权和部分网络犯罪类提示）。应以外部控制——输出过滤、工具与检索的门控——来防御这些类别，而非信赖模型层面的拒绝。
锁定并记录版本。 准确记录你评估和部署的模型构建版本，以免供应商侧的静默更新悄然改变你的风险态势。

状态

项目	详情
论文	”Cross-Generational Transfer of Adversarial Attacks Reveals Non-Monotonic Safety Alignment in LLMs”
arXiv 编号	2606.00813
提交日期	2026 年 5 月 30 日
研究模型	Google Gemma，四个代际（约 7B–31B）
方法	MAP-Elites 质量-多样性红队
关键结果	Gemma 3（12B）ASR 68.7% > Gemma 2 45.5%，> Gemma 4 33.9%
跨代迁移	至 Gemma 3 为 44–46%；至 Gemma 4 为 14–18%
性质	防御性测量研究——未发布任何利用代码

更新不一定更安全：跨代模型的非单调安全对齐

这是什么？

工作原理

为何重要

防御

状态

Sources