RESEARCH MEDIUM NEW

Optimus：超越二元判定为越狱打分，揭示一个隐蔽最优区间

2026 年 5 月 9 日的一篇 arXiv 论文指出，二元成功率掩盖了防御者最该担心的越狱。其 Optimus 指标按相似度与有害性为提示打分，揭示出一个 ASR 跌至零的「隐蔽最优」区间。

2026-06-05 // 7 min affects: aligned-llms, llamaguard, promptguard, wildguard

这是什么？

2026 年 5 月 9 日，来自德克萨斯大学埃尔帕索分校、南伊利诺伊大学卡本代尔分校和伊利诺伊大学厄巴纳-香槟分校的研究者（Ismail Hossain、Tanzim Ahad、Md Jahangir Alam、Sai Puppala、Syed Bahauddin Alam 和 Sajedul Talukder）在 arXiv 上发表了 The Art of the Jailbreak（cs.CR，2605.09225）。其核心论点关乎度量方式：该领域几乎完全用二元攻击成功率（ASR）来评估越狱——模型是否产生了有害输出，是或否——而这一个比特恰恰丢弃了防御者最需要的信息。

他们的答案是 Optimus，一种无需训练的连续评分，并配套构建了一个含 11.4 万条组合式越狱提示的语料库以供研究。本文关注的是其评估方面的贡献，而非提示语料：站得住脚且持久的发现是，非此即彼的视角在结构上对一类「安静的」越狱视而不见。

工作原理

Optimus 在两个维度上同时为越狱提示打分，记作 J(S, H)：

S — 语义相似度：越狱提示与原始有害请求之间的相似度。S 高意味着改写后仍在索要同一样东西。
H — 有害性概率：越狱输出本身的有害概率，由有害性分类器估计。

两者通过校准过的惩罚函数组合为单一的连续数值，无需任何针对具体任务的训练——Optimus 使用现成的嵌入与推理模型（作者的最佳组合为 all-mpnet-base-v2 × deberta-large-mnli），而非一个随攻击演变就必须重新训练的微调评判器。这种无需训练的特性正是关键：二元评判器或定制分类器一旦攻击分布改变就会过时；而相似度加有害性的评分则不会。

为了获得可度量的对象，作者将 912 种来自真实环境的组合策略应用于取自 JailBreakV-28K 的 125 条有害种子提示，并通过六模型多数投票将每条生成的提示标注到 14 个网络攻击类别之一（恶意软件、钓鱼、提权、数据外泄等）。此处不复现任何利用性提示；权威参考为该论文。

最重要的结果是一个**「隐蔽最优」区间**。将提示置于 (S, H) 平面后，最危险的那些聚集在 S* ≈ 0.57、H* ≈ 0.43 附近——这些改写既保留了足够的原始意图以对攻击者仍有用，又在表面上足够「净化」以绕过过滤器。恰恰在这一区间，二元 ASR 跌向零：攻击其实成功了，但非此即彼的评估器却记为「失败」，因为输出没有触发粗粒度的有害内容检查。团队所信赖的指标，恰恰在风险最集中之处最为盲目。

为何重要

大多数生产环境中的 LLM 防御依赖轻量级分类器——LlamaGuard、PromptGuard、WildGuard 等——置于经 RLHF 对齐的模型之前。论文的威胁模型是现实的：一个黑盒、单轮的攻击者，可在离线状态下针对本地副本、嵌入模型和有害性估计器反复迭代，最后只发送一条打磨好的提示。面对这样的对手，作者的类别感知生成器达到了 24–39 的困惑度（相比 AutoDAN 和 AmpleGCG 的 40–140——困惑度越低意味着文本越流畅、越不显异常），并在 LlamaPromptGuard-2-86M 上测得过滤器绕过率。

对防御者有两点启示。其一，**如果你的红队记分牌就是 ASR，那你在高估自身的安全性。**被标为「已拦截」的越狱里，包含了实际上成功的隐蔽最优样本。其二，**按类别打分会改变投入的方向。**Optimus 提供按攻击类别的细分——哪些策略对钓鱼提示最有效、对提权提示最有效——从而把加固集中在模型真正最薄弱的类别上，而非一个笼统的「越狱抵抗力」数字。这正是鲁棒性综述对该领域的批评：把攻击形式与威胁语义混在一起的评估，几乎说不清真实暴露面。

防御

论文本身就是一件防御工具——更好的度量——但它也蕴含着具体的实践改变。

**不要再用单一 ASR 数字来报告越狱抵抗力。**应搭配一个连续的二维评分（对意图的相似度 × 有害性），让你的评估能看到非此即彼所掩盖的隐蔽最优区间。
**按攻击类别打分，而非汇总。**将结果按具体目标（恶意软件、钓鱼、提权、数据外泄）细分，并优先处理得分最差的类别。汇总的「92% 已拦截」可能掩盖某一类别 40% 的成功率。
**用流畅的组合式改写测试——而非只用模板。**针对手工 DAN 式模板或 token 优化攻击调校的防御，会漏掉低困惑度、经语义重构的提示。把真实环境中的组合策略纳入你的红队测试集。
**不要只依赖表层内容分类器。**依赖词汇层面有害信号的过滤器，恰恰是隐蔽最优区间所要击败的对象。叠加基于表征或激活的检测，去审视内部状态，而非仅看输出字符串。
**持续重新评估。**由于 Optimus 无需重新训练，它可作为 CI 中的常驻指标，在每次模型更新时运行——捕捉那些新检查点在某一类别上悄然变得更易被越狱的回退。

状态

项目	参考	日期	备注
The Art of the Jailbreak	arXiv:2605.09225v1 (cs.CR)	2026-05-09	Optimus 评分 + 11.4 万条组合式提示语料
Optimus 指标	论文	2026-05-09	无需训练的 J(S,H)；隐蔽最优区间 S≈0.57、H≈0.43
生成器	论文	2026-05-09	困惑度 24–39，对比 40–140（AutoDAN/AmpleGCG）；在 LlamaPromptGuard-2-86M 上测得绕过率
范围	论文	2026-05-09	912 种组合策略 × 125 条种子提示（JailBreakV-28K），14 个网络攻击类别

应当记住的要点不是「越狱无法阻挡」，而是大多数团队度量越狱抵抗力的方式，系统性地低估了真正重要的攻击。一个连续的、类别感知的评分，同时捕捉语义意图与有害性，能给防御者一张模型真正失守之处的地图——这是单一的成功率比特所无法提供的。

Optimus：超越二元判定为越狱打分，揭示一个隐蔽最优区间

这是什么？

工作原理

为何重要

防御

状态

Sources