Optimus:超越二元判定为越狱打分,揭示一个隐蔽最优区间
2026 年 5 月 9 日的一篇 arXiv 论文指出,二元成功率掩盖了防御者最该担心的越狱。其 Optimus 指标按相似度与有害性为提示打分,揭示出一个 ASR 跌至零的「隐蔽最优」区间。
这是什么?
2026 年 5 月 9 日,来自德克萨斯大学埃尔帕索分校、南伊利诺伊大学卡本代尔分校和伊利诺伊大学厄巴纳-香槟分校的研究者(Ismail Hossain、Tanzim Ahad、Md Jahangir Alam、Sai Puppala、Syed Bahauddin Alam 和 Sajedul Talukder)在 arXiv 上发表了 The Art of the Jailbreak(cs.CR,2605.09225)。其核心论点关乎度量方式:该领域几乎完全用二元攻击成功率(ASR)来评估越狱——模型是否产生了有害输出,是或否——而这一个比特恰恰丢弃了防御者最需要的信息。
他们的答案是 Optimus,一种无需训练的连续评分,并配套构建了一个含 11.4 万条组合式越狱提示的语料库以供研究。本文关注的是其评估方面的贡献,而非提示语料:站得住脚且持久的发现是,非此即彼的视角在结构上对一类「安静的」越狱视而不见。
工作原理
Optimus 在两个维度上同时为越狱提示打分,记作 J(S, H):
- S — 语义相似度:越狱提示与原始有害请求之间的相似度。S 高意味着改写后仍在索要同一样东西。
- H — 有害性概率:越狱输出本身的有害概率,由有害性分类器估计。
两者通过校准过的惩罚函数组合为单一的连续数值,无需任何针对具体任务的训练——Optimus 使用现成的嵌入与推理模型(作者的最佳组合为 all-mpnet-base-v2 × deberta-large-mnli),而非一个随攻击演变就必须重新训练的微调评判器。这种无需训练的特性正是关键:二元评判器或定制分类器一旦攻击分布改变就会过时;而相似度加有害性的评分则不会。
为了获得可度量的对象,作者将 912 种来自真实环境的组合策略应用于取自 JailBreakV-28K 的 125 条有害种子提示,并通过六模型多数投票将每条生成的提示标注到 14 个网络攻击类别之一(恶意软件、钓鱼、提权、数据外泄等)。此处不复现任何利用性提示;权威参考为该论文。
最重要的结果是一个**「隐蔽最优」区间**。将提示置于 (S, H) 平面后,最危险的那些聚集在 S* ≈ 0.57、H* ≈ 0.43 附近——这些改写既保留了足够的原始意图以对攻击者仍有用,又在表面上足够「净化」以绕过过滤器。恰恰在这一区间,二元 ASR 跌向零:攻击其实成功了,但非此即彼的评估器却记为「失败」,因为输出没有触发粗粒度的有害内容检查。团队所信赖的指标,恰恰在风险最集中之处最为盲目。
为何重要
大多数生产环境中的 LLM 防御依赖轻量级分类器——LlamaGuard、PromptGuard、WildGuard 等——置于经 RLHF 对齐的模型之前。论文的威胁模型是现实的:一个黑盒、单轮的攻击者,可在离线状态下针对本地副本、嵌入模型和有害性估计器反复迭代,最后只发送一条打磨好的提示。面对这样的对手,作者的类别感知生成器达到了 24–39 的困惑度(相比 AutoDAN 和 AmpleGCG 的 40–140——困惑度越低意味着文本越流畅、越不显异常),并在 LlamaPromptGuard-2-86M 上测得过滤器绕过率。
对防御者有两点启示。其一,**如果你的红队记分牌就是 ASR,那你在高估自身的安全性。**被标为「已拦截」的越狱里,包含了实际上成功的隐蔽最优样本。其二,**按类别打分会改变投入的方向。**Optimus 提供按攻击类别的细分——哪些策略对钓鱼提示最有效、对提权提示最有效——从而把加固集中在模型真正最薄弱的类别上,而非一个笼统的「越狱抵抗力」数字。这正是鲁棒性综述对该领域的批评:把攻击形式与威胁语义混在一起的评估,几乎说不清真实暴露面。
防御
论文本身就是一件防御工具——更好的度量——但它也蕴含着具体的实践改变。
-
**不要再用单一 ASR 数字来报告越狱抵抗力。**应搭配一个连续的二维评分(对意图的相似度 × 有害性),让你的评估能看到非此即彼所掩盖的隐蔽最优区间。
-
**按攻击类别打分,而非汇总。**将结果按具体目标(恶意软件、钓鱼、提权、数据外泄)细分,并优先处理得分最差的类别。汇总的「92% 已拦截」可能掩盖某一类别 40% 的成功率。
-
**用流畅的组合式改写测试——而非只用模板。**针对手工 DAN 式模板或 token 优化攻击调校的防御,会漏掉低困惑度、经语义重构的提示。把真实环境中的组合策略纳入你的红队测试集。
-
**不要只依赖表层内容分类器。**依赖词汇层面有害信号的过滤器,恰恰是隐蔽最优区间所要击败的对象。叠加基于表征或激活的检测,去审视内部状态,而非仅看输出字符串。
-
**持续重新评估。**由于 Optimus 无需重新训练,它可作为 CI 中的常驻指标,在每次模型更新时运行——捕捉那些新检查点在某一类别上悄然变得更易被越狱的回退。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| The Art of the Jailbreak | arXiv:2605.09225v1 (cs.CR) | 2026-05-09 | Optimus 评分 + 11.4 万条组合式提示语料 |
| Optimus 指标 | 论文 | 2026-05-09 | 无需训练的 J(S,H);隐蔽最优区间 S*≈0.57、H*≈0.43 |
| 生成器 | 论文 | 2026-05-09 | 困惑度 24–39,对比 40–140(AutoDAN/AmpleGCG);在 LlamaPromptGuard-2-86M 上测得绕过率 |
| 范围 | 论文 | 2026-05-09 | 912 种组合策略 × 125 条种子提示(JailBreakV-28K),14 个网络攻击类别 |
应当记住的要点不是「越狱无法阻挡」,而是大多数团队度量越狱抵抗力的方式,系统性地低估了真正重要的攻击。一个连续的、类别感知的评分,同时捕捉语义意图与有害性,能给防御者一张模型真正失守之处的地图——这是单一的成功率比特所无法提供的。