RESEARCH MEDIUM NEW

前沿模型的“越狱税”正在消失——一个安全假设由此被推翻

2026年4月的一项研究表明，越狱所造成的能力损失会随模型变强而缩小：Haiku 4.5 被越狱后下降33.1%，Opus 4.6 仅下降7.7%。那些假设“被越狱的模型已被削弱”的风险评估不再成立。

2026-06-17 // 5 min affects: claude-haiku-4-5, claude-opus-4-6, frontier-llms

这是什么？

2026年4月30日（5月4日修订），论文 Jailbroken Frontier Models Retain Their Capabilities（arXiv 2605.00267）检验了一个安静地支撑着大量安全推理的、令人安心的假设：即便越狱成功，达成越狱所需的种种扭曲也会让模型变得更”笨”，因此它产出的有害内容质量本就不高。先前的工作把这种现象称为**“越狱税”**——由精心设计的角色扮演、混淆或指令劫持外壳所导致的任务性能下降。

研究发现是：这一”税”并非常数。它随模型能力的提升而下降，而对于施加于最强模型的最先进越狱手段，它实际上趋近于零。换句话说，模型越强，越狱在输出质量上对攻击者的代价就越小。

这是防御性研究。论文不含任何可利用的攻击载荷；其贡献是一项测量，告诉防御者应当停止相信哪些假设。

工作原理

作者在一组能力从 Haiku 4.5 到 Opus 4.6 的 Claude 模型阶梯上，对五个基准上的28种越狱进行了评估。对每个模型与每种越狱，他们测量了从干净提示到被越狱提示之间性能下降了多少——即”税”。

在五个基准中的四个上，这一规律是单调的：模型越有能力，“税”就越低。具体而言，Haiku 4.5 被越狱时平均损失33.1% 的基准性能，而Opus 4.6 在最大思考强度下仅损失7.7%。较弱的模型在越狱外壳的认知负担下弯折；较强的模型则能背着这层外壳，仍把任务做好。

第二个结果进一步细化了这一点。这种退化并非在各类任务上均匀分布：重推理任务的下降明显大于知识回忆任务。被越狱的模型更可能在多步推导上失手，而不是忘记一个它已经掌握的事实。

最后，论文考察了 边界点越狱（Boundary Point Jailbreaking，BPJ）——在其专门工作 Boundary Point Jailbreaking of Black-Box LLMs（arXiv 2602.15001）中被描述为一种黑盒方法，它优化一段对抗性前缀以绕过已部署的安全分类器。针对受保护的模型，BPJ 实现了近乎完美的分类器规避，且能力退化几乎为零。针对已部署防御层的最强攻击，同时也是在输出质量上对攻击者几乎零代价的那一种。此处不复现任何载荷或前缀；相关事实是这种组合——高规避率、可忽略的”税”。

为何重要

数量惊人的安全论证都在不点名地依赖”越狱税”。其逻辑是：“是的，坚定的攻击者能越狱该模型，但被越狱的模型已被削弱，因此它给恶意用户带来的增益有限。“本文表明，对前沿模型而言这一逻辑是反的——拥有最危险潜在能力的系统，恰恰是在越狱下最能保留这些能力的系统。

这对各组织如何撰写安全论证（safety case）与风险评估有直接影响。如果你的威胁模型假设被越狱的模型是被削弱的模型，那么你对剩余风险的估计就过于乐观——而且你部署的模型越强，这种乐观就越严重。对于那些只在干净提示上测试危险能力上限的”增益（uplift）“评估也是如此：如果被越狱的模型表现几乎一样好，那么干净提示下的上限就接近对手实际能达到的上限。

BPJ 的结果对任何把基于分类器的护栏当作主要防御的人来说，进一步点明了问题。针对已部署分类器的最强攻击并不以质量换取规避——它两者兼得。一个攻击者无需支付能力代价即可绕过的护栏，是一个其失效会把”完整能力的模型”交到攻击者手中的护栏。

防御

论文自身的建议就是主要缓解措施，而它更像是一堂评估与治理课，而非代码改动：

不要在安全论证中把”能力退化”记为优势。 应将被越狱的前沿模型视为基本保留了全部能力。删除任何依赖”越狱税”的剩余风险论点，对你最有能力的已部署模型尤其如此。
在越狱条件下评估危险能力与增益，而不仅在干净提示上。 测量对手实际可达的上限。如果干净表现与越狱表现接近，就以越狱数值作为有效值上报。
不要把分类器护栏当作充分的边界。 BPJ 表明，已部署分类器可被以近乎完美的比率绕过，且无质量代价。应将分类器作为纵深防御的一层，置于能力限制、工具/动作白名单与人工介入审批之后——而非边界本身。
限制被越狱模型能做什么，而不仅是它会说什么。 既然无法假设模型已被削弱，就应限制影响半径：收窄工具访问、隔离执行、对高影响动作要求审批，使一次成功的越狱不会转化为一次成功的操作。
对重推理类危害给予恰当权重。 由于推理任务在越狱下退化更多，知识回忆类危害（例如让被记忆的敏感内容浮现）是攻击者最廉价、最能完整提取的——应优先围绕”模型知道什么”而非”模型能推理什么”来设置控制。

状态

项目	详情
论文	”Jailbroken Frontier Models Retain Their Capabilities”
arXiv 编号	2605.00267（v1 2026年4月30日，v2 2026年5月4日）
范围	28种越狱，5个基准，Claude Haiku 4.5 → Opus 4.6
越狱税（Haiku 4.5）	平均性能损失33.1%
越狱税（Opus 4.6，最大思考强度）	平均性能损失7.7%
任务敏感性	重推理任务比知识回忆退化更多
边界点越狱（BPJ）	近乎完美的分类器规避，能力退化几乎为零
核心建议	安全论证不得依赖越狱带来的能力退化
性质	防御性研究——无可利用载荷

前沿模型的“越狱税”正在消失——一个安全假设由此被推翻

这是什么？

工作原理

为何重要

防御

状态

Sources