强化学习越狱:奖励设计与回合长度才是关键
2026 年 6 月的一项研究拆解了基于强化学习的越狱,发现攻击者对环境的设计——稠密奖励与长回合——比算法本身更重要。
这是什么?
2026 年 6 月 2 日,研究者发表了 A Systematic Investigation of RL-Jailbreaking in LLMs(arXiv:2605.07032),这是一项由 CIFAR 的加拿大人工智能安全研究所(Canadian AI Safety Institute)项目支持的实证研究。基于强化学习(RL)的越狱把目标模型当作一个环境:对抗性智能体反复变异提示词、观察响应,并在输出朝有害内容偏移时获得奖励。该论文没有提出新攻击,而是做了对防御更有用的事——拆解既有框架,弄清它为什么有效。核心答案是:成功主要取决于攻击者如何形式化环境——奖励函数与回合长度——而非所用的 RL 算法。作者刻意略去了成功的越狱提示词,并将这项工作定位为一种诊断工具。
工作原理
该攻击被建模为部分可观测马尔可夫决策过程。每一步,智能体选择一个离散变异——GENERATE_SIMILAR、CROSSOVER、EXPAND、SHORTEN 或 REPHRASE——将其应用于有害提示模板,并读取目标的回复。研究比较了两种奖励设计:稠密奖励,即模型输出与一个未对齐参考答案之间的连续余弦相似度;以及稀疏奖励,一个仅在相似度越过阈值时才触发的二元信号。模板通过一种上置信界(Upper-Confidence-Bound)蒙特卡洛树搜索来选取,智能体在每个回合内执行固定步数(团队测试了 5、10、20/25 和 50)。所测试的算法包括 PPO、GRPO 和一个 Double Deep Q-Network。
研究结论关乎结构,而非具体载荷。连续的稠密奖励——它在每一轮都给智能体一个朝向「更接近有害」的梯度——是最强的单一驱动因素,且较长的回合在 Llama-3.2 系列模型上有帮助。奖励选择与目标相互作用:稠密奖励在 Llama-3.2-1B/3B 上胜出,而稀疏奖励在 Qwen3-4B 和 Tiny-aya-global 上表现更好。出人意料的是,扩大动作空间反而一致地有害,而仅用 20 个有害问题训练是一个甜点区——更少(5)和更多(520)都更差。基于价值的 DDQN 表现与 PPO 相近。尤为关键的是,当目标被包裹上输入/输出护栏后,智能体仍然绕过了它们:论文报告称它「成功攻陷了所有目标模型与护栏」,其中 ShieldGemma 拦截的对抗性提示比例高于 Llama-Guard,但两者都未能守住。
为什么重要
实际教训是:给模型外挂单一护栏分类器,面对一个会优化的对手并不是持久的防御。一旦攻击者能跑大量廉价的自动化回合,并获得关于自己离目标有多近的分级信号,搜索就会收敛。这与越狱研究中反复出现的主题相呼应——自适应攻击会击穿静态防御、推理模型可自主驱动越狱,以及鲁棒性应被度量而非假设。一个重要的阅读注意事项:该研究只测试了小型开源权重模型(Llama-3.2-1B/3B、Qwen3-4B、Tiny-aya-global),并未攻击任何 GPT、Claude 或 DeepSeek 模型。作者标记为异常稳健的唯一防御,是 Anthropic 的宪法分类器,据称它经受住了超过 3000 小时的红队测试——此处为引用,并未重新测试。
防御
把一个会优化的越狱者当作威胁模型,并剥夺其搜索所依赖的东西:奖励信号与无限次尝试。
- 不要只信任单一护栏分类器。 Llama-Guard 与 ShieldGemma 都被绕过。叠加防御——输入过滤、输出过滤与模型层对齐——并优先采用广泛训练的、宪法式的护栏,而非单一的窄分类器。
- 饿死稠密奖励。 那个「我离目标有多近」的连续梯度是主要驱动力。避免输出部分顺从、逐步有害的内容;一个干脆而一致的拒绝,所泄露的信号远少于一个攻击者相似度指标可以攀爬的「险些命中」。
- 限制并监控优化预算。 长回合帮了攻击者。按身份限制查询量、约束多轮精炼,并标记那些重复提交轻微变异提示(rephrase/expand/crossover 模式)的会话——这是自动化红队的操作指纹。
- 用自适应方法对自己的部署做红队。 静态基准的通过率会高估安全性。上线前用迭代的、奖励驱动的攻击进行评估,并在每次模型或护栏更新后重新测试,因为结果依赖于版本。
现状
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| 研究发表 | arXiv:2605.07032 | 2026-06-02 | 对 RL 越狱的实证拆解 |
| 主要驱动 | 奖励 + 回合长度 | 2026-06 | 环境形式化胜过算法选择 |
| 测试目标 | Llama-3.2-1B/3B、Qwen3-4B、Tiny-aya | 2026-06 | 仅小型开源权重模型 |
| 被绕过的护栏 | Llama-Guard、ShieldGemma | 2026-06 | 两者皆被突破;ShieldGemma 拦截更多 |
| 稳健的例外(引用) | 宪法分类器 | 2025 | 超 3000 红队小时,此处未重测 |
这一结果不是配方,也并非按配方设计。它是一张地图,标出哪些旋钮会让越狱搜索变得高效——因而也标出防御者应停止依赖哪些假设。结论来自小型开源权重模型;同样的结构性杠杆是否在前沿闭源模型上同样占主导,按作者自己的说法,仍是悬而未决的问题。