系统:运行中
← 返回所有攻击
RESEARCH MEDIUM NEW

前沿模型的“越狱税”正在消失——一个安全假设由此被推翻

2026年4月的一项研究表明,越狱所造成的能力损失会随模型变强而缩小:Haiku 4.5 被越狱后下降33.1%,Opus 4.6 仅下降7.7%。那些假设“被越狱的模型已被削弱”的风险评估不再成立。

2026-06-17 // 5 min affects: claude-haiku-4-5, claude-opus-4-6, frontier-llms

这是什么?

2026年4月30日(5月4日修订),论文 Jailbroken Frontier Models Retain Their Capabilities(arXiv 2605.00267)检验了一个安静地支撑着大量安全推理的、令人安心的假设:即便越狱成功,达成越狱所需的种种扭曲也会让模型变得更”笨”,因此它产出的有害内容质量本就不高。先前的工作把这种现象称为**“越狱税”**——由精心设计的角色扮演、混淆或指令劫持外壳所导致的任务性能下降。

研究发现是:这一”税”并非常数。它随模型能力的提升而下降,而对于施加于最强模型的最先进越狱手段,它实际上趋近于零。换句话说,模型越强,越狱在输出质量上对攻击者的代价就越小。

这是防御性研究。论文不含任何可利用的攻击载荷;其贡献是一项测量,告诉防御者应当停止相信哪些假设。

工作原理

作者在一组能力从 Haiku 4.5 到 Opus 4.6 的 Claude 模型阶梯上,对五个基准上的28种越狱进行了评估。对每个模型与每种越狱,他们测量了从干净提示到被越狱提示之间性能下降了多少——即”税”。

在五个基准中的四个上,这一规律是单调的:模型越有能力,“税”就越低。具体而言,Haiku 4.5 被越狱时平均损失33.1% 的基准性能,而Opus 4.6 在最大思考强度下仅损失7.7%。较弱的模型在越狱外壳的认知负担下弯折;较强的模型则能背着这层外壳,仍把任务做好。

第二个结果进一步细化了这一点。这种退化并非在各类任务上均匀分布:重推理任务的下降明显大于知识回忆任务。被越狱的模型更可能在多步推导上失手,而不是忘记一个它已经掌握的事实。

最后,论文考察了 边界点越狱(Boundary Point Jailbreaking,BPJ)——在其专门工作 Boundary Point Jailbreaking of Black-Box LLMs(arXiv 2602.15001)中被描述为一种黑盒方法,它优化一段对抗性前缀以绕过已部署的安全分类器。针对受保护的模型,BPJ 实现了近乎完美的分类器规避,且能力退化几乎为零。针对已部署防御层的最强攻击,同时也是在输出质量上对攻击者几乎零代价的那一种。此处不复现任何载荷或前缀;相关事实是这种组合——高规避率、可忽略的”税”。

为何重要

数量惊人的安全论证都在不点名地依赖”越狱税”。其逻辑是:“是的,坚定的攻击者能越狱该模型,但被越狱的模型已被削弱,因此它给恶意用户带来的增益有限。“本文表明,对前沿模型而言这一逻辑是反的——拥有最危险潜在能力的系统,恰恰是在越狱下最能保留这些能力的系统。

这对各组织如何撰写安全论证(safety case)风险评估有直接影响。如果你的威胁模型假设被越狱的模型是被削弱的模型,那么你对剩余风险的估计就过于乐观——而且你部署的模型越强,这种乐观就越严重。对于那些只在干净提示上测试危险能力上限的”增益(uplift)“评估也是如此:如果被越狱的模型表现几乎一样好,那么干净提示下的上限就接近对手实际能达到的上限。

BPJ 的结果对任何把基于分类器的护栏当作主要防御的人来说,进一步点明了问题。针对已部署分类器的最强攻击并不以质量换取规避——它两者兼得。一个攻击者无需支付能力代价即可绕过的护栏,是一个其失效会把”完整能力的模型”交到攻击者手中的护栏。

防御

论文自身的建议就是主要缓解措施,而它更像是一堂评估与治理课,而非代码改动:

  • 不要在安全论证中把”能力退化”记为优势。 应将被越狱的前沿模型视为基本保留了全部能力。删除任何依赖”越狱税”的剩余风险论点,对你最有能力的已部署模型尤其如此。
  • 在越狱条件下评估危险能力与增益,而不仅在干净提示上。 测量对手实际可达的上限。如果干净表现与越狱表现接近,就以越狱数值作为有效值上报。
  • 不要把分类器护栏当作充分的边界。 BPJ 表明,已部署分类器可被以近乎完美的比率绕过,且无质量代价。应将分类器作为纵深防御的一层,置于能力限制、工具/动作白名单与人工介入审批之后——而非边界本身。
  • 限制被越狱模型能做什么,而不仅是它会说什么。 既然无法假设模型已被削弱,就应限制影响半径:收窄工具访问、隔离执行、对高影响动作要求审批,使一次成功的越狱不会转化为一次成功的操作。
  • 对重推理类危害给予恰当权重。 由于推理任务在越狱下退化更多,知识回忆类危害(例如让被记忆的敏感内容浮现)是攻击者最廉价、最能完整提取的——应优先围绕”模型知道什么”而非”模型能推理什么”来设置控制。

状态

项目详情
论文”Jailbroken Frontier Models Retain Their Capabilities”
arXiv 编号2605.00267(v1 2026年4月30日,v2 2026年5月4日)
范围28种越狱,5个基准,Claude Haiku 4.5 → Opus 4.6
越狱税(Haiku 4.5)平均性能损失33.1%
越狱税(Opus 4.6,最大思考强度)平均性能损失7.7%
任务敏感性重推理任务比知识回忆退化更多
边界点越狱(BPJ)近乎完美的分类器规避,能力退化几乎为零
核心建议安全论证不得依赖越狱带来的能力退化
性质防御性研究——无可利用载荷

Sources