拒绝逃逸方向:为什么对齐无法彻底关闭越狱缺口
2026 年 5 月的一篇论文证明,对齐后的大语言模型仍在其算子结构中保留着「拒绝逃逸方向」——这解释了越狱为何持续存在,以及消除它们为何要以可用性为代价。
这是什么?
两年来,关于越狱的主流实践问题一直是如何构造一个越狱:用哪种后缀、哪种人格、哪种编码。一篇于 2026 年 5 月 9 日发表在 arXiv 上的论文——《Why Do Aligned LLMs Remain Jailbreakable: Refusal-Escape Directions, Operator-Level Sources, and Safety-Utility Trade-off》(arXiv:2605.08878,Chen、Liu 与 Cao)——提出了更难的问题:这一切为什么能奏效,对齐模型的内部结构中究竟是什么让门始终敞开。
它的答案是作者称之为**拒绝逃逸方向(Refusal-Escape Direction,RED)**的概念:在有害输入周围的一个局部扰动方向,它能使模型从拒绝切换到回答,同时仍保留模型自身对该输入有害的判断。在这一框架下,越狱不仅仅是一段碰巧奏效的字符串,而是一种由模型几何结构所允许的、从拒绝到回答的连续转变。该工作是理论性与防御性的:它描述了一个结构性极限,并未发布任何可运行的攻击。
工作原理
这一结果建立在如今已成熟的机制可解释性脉络之上。2024 年的论文《Refusal in Language Models Is Mediated by a Single Direction》(arXiv:2406.11717,Arditi 等,NeurIPS 2024)表明,在许多开源对话模型中,拒绝大致由残差流中的一个方向所主导:抹去它,模型便不再拒绝;放大它,模型连无害请求也会拒绝。2026 年 2 月的后续工作《There Is More to Refusal… than a Single Direction》(arXiv:2602.02132)则表明实际图景是多维的。RED 论文将这对安全意味着什么加以形式化。
核心思路是把网络视为算子的复合(归一化、残差接线、注意力、MLP、终端投影),并证明一个 RED 可以被精确分解为各算子级来源的贡献。其中三个来源——归一化、残差接线与终端层——被作者称为受解析约束的:它们对 RED 的贡献由架构本身固定,而非训练可以自由抵消的部分。要彻底消除拒绝逃逸方向,共享的表达模块(自注意力与 MLP)就必须抵消这些受约束的贡献,同时还要保留那些为正当请求产生有用回答的通路。这两项要求方向相反、彼此拉扯。
在实证层面,作者在 Qwen3-4B、Qwen3-14B、Llama-3.1 与 Gemma-3 以及多种攻击方法上表明:增加 token 维度可以暴露出一个 RED,而成功的越狱所产生的「拒绝到回答」转变,在很大程度上与他们预测的终端来源贡献相吻合。机制与数学相符。此处不复现任何 payload——其贡献在于解释,而非利用代码。
为何重要
其实践后果是一个有机制依据、而非空泛断言的条件性安全—可用性权衡。如果拒绝逃逸方向部分由架构所固定,那么单一的安全训练模型就无法在不损害其回答正当请求能力的前提下,把越狱概率压到零。这重新审视了三种常见看法:
第一,「我们做了更强的微调,所以现在安全了」在结构上是过于乐观的。对齐提高了寻找 RED 的成本,但并未抹去该方向。第二,针对单一拒绝方向(或单一分隔符、单一后缀家族)的防御只是在对付症状——2 月的结果已表明拒绝并非一维,而 RED 解释了为何压住一个来源会留下其他来源。第三,这一权衡是有条件的而非绝对的:当你要求同一个模型独自既最大限度地有用、又最大限度地安全时,它咬得最狠。
对任何要上线 LLM 功能的人而言,最后一点最具可操作性。它支持采用分层的、模型外部的控制,而不是把安全押注在基础模型单独的拒绝行为上。
防御
这篇论文回答的是「为什么」,因此其防御价值在于如何重新分配努力,而非提供补丁。
-
不要把拒绝当作边界。 模型是否愿意拒绝,是一种由部分源自架构的方向所塑造的概率性行为。设计时应假设任何单一模型的拒绝都可能被扰动绕过,因为在机制上确实可以。
-
在模型之外分层防御。 由于泄漏是结构性的,持久的控制位于模型周围:输入/输出分类器、检索与工具调用的白名单、能力沙箱,以及对「不可信输入 + 敏感操作 + 外泄通道」的「二取一规则」式限制。这些控制不依赖基础模型无法保证的拒绝。
-
采用多个相互独立的安全信号。 多维视角的一个推论是:冗余且因果独立的检查,比单一拒绝通路更难被同时压制。应使检测器多样化,而非只强化其中一个。
-
有意识地为权衡设定预算。 如果把模型推向零越狱会可测量地降低其在正当任务上的表现,那这是被预测到的代价,而非调参缺陷。请决定某次部署应处在安全—可用性曲线的哪个位置,并把其余的保障放进周边系统。
-
把分解用于评估,而不仅是攻击。 算子级归因为红队与评估者提供了有依据的探测点——归一化、残差与终端来源——而不是仅仅罗列表层 prompt。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| 拒绝逃逸方向(RED) | arXiv:2605.08878 | 2026-05-09 | 证明 RED 可分解为算子级来源;条件性安全—可用性权衡 |
| 拒绝由单一方向主导 | arXiv:2406.11717 | 2024-06(NeurIPS 2024) | 奠基性:一个方向主导开源对话模型的拒绝 |
| 拒绝是多维的 | arXiv:2602.02132 | 2026-02 | 拒绝并非单一方向;促成算子级视角 |
| 实证范围 | arXiv:2605.08878 | 2026-05-09 | Qwen3-4B/14B、Llama-3.1、Gemma-3;开源权重 |
要点不是一种新攻击,而是一项证明:部分越狱面已被「布线」进了架构之中——因此正确的应对是分层的、模型外部的防御,以及在安全—可用性曲线上做出有意识的取舍,而非相信再做一轮对齐就能关闭这道缺口。