JAILBREAK MEDIUM NEW

强化学习越狱：奖励设计与回合长度才是关键

2026 年 6 月的一项研究拆解了基于强化学习的越狱，发现攻击者对环境的设计——稠密奖励与长回合——比算法本身更重要。

2026-06-20 // 6 min affects: llama-3.2-1b, llama-3.2-3b, qwen3-4b, tiny-aya

这是什么？

2026 年 6 月 2 日，研究者发表了 A Systematic Investigation of RL-Jailbreaking in LLMs（arXiv:2605.07032），这是一项由 CIFAR 的加拿大人工智能安全研究所（Canadian AI Safety Institute）项目支持的实证研究。基于强化学习（RL）的越狱把目标模型当作一个环境：对抗性智能体反复变异提示词、观察响应，并在输出朝有害内容偏移时获得奖励。该论文没有提出新攻击，而是做了对防御更有用的事——拆解既有框架，弄清它为什么有效。核心答案是：成功主要取决于攻击者如何形式化环境——奖励函数与回合长度——而非所用的 RL 算法。作者刻意略去了成功的越狱提示词，并将这项工作定位为一种诊断工具。

工作原理

该攻击被建模为部分可观测马尔可夫决策过程。每一步，智能体选择一个离散变异——GENERATE_SIMILAR、CROSSOVER、EXPAND、SHORTEN 或 REPHRASE——将其应用于有害提示模板，并读取目标的回复。研究比较了两种奖励设计：稠密奖励，即模型输出与一个未对齐参考答案之间的连续余弦相似度；以及稀疏奖励，一个仅在相似度越过阈值时才触发的二元信号。模板通过一种上置信界（Upper-Confidence-Bound）蒙特卡洛树搜索来选取，智能体在每个回合内执行固定步数（团队测试了 5、10、20/25 和 50）。所测试的算法包括 PPO、GRPO 和一个 Double Deep Q-Network。

研究结论关乎结构，而非具体载荷。连续的稠密奖励——它在每一轮都给智能体一个朝向「更接近有害」的梯度——是最强的单一驱动因素，且较长的回合在 Llama-3.2 系列模型上有帮助。奖励选择与目标相互作用：稠密奖励在 Llama-3.2-1B/3B 上胜出，而稀疏奖励在 Qwen3-4B 和 Tiny-aya-global 上表现更好。出人意料的是，扩大动作空间反而一致地有害，而仅用 20 个有害问题训练是一个甜点区——更少（5）和更多（520）都更差。基于价值的 DDQN 表现与 PPO 相近。尤为关键的是，当目标被包裹上输入/输出护栏后，智能体仍然绕过了它们：论文报告称它「成功攻陷了所有目标模型与护栏」，其中 ShieldGemma 拦截的对抗性提示比例高于 Llama-Guard，但两者都未能守住。

为什么重要

实际教训是：给模型外挂单一护栏分类器，面对一个会优化的对手并不是持久的防御。一旦攻击者能跑大量廉价的自动化回合，并获得关于自己离目标有多近的分级信号，搜索就会收敛。这与越狱研究中反复出现的主题相呼应——自适应攻击会击穿静态防御、推理模型可自主驱动越狱，以及鲁棒性应被度量而非假设。一个重要的阅读注意事项：该研究只测试了小型开源权重模型（Llama-3.2-1B/3B、Qwen3-4B、Tiny-aya-global），并未攻击任何 GPT、Claude 或 DeepSeek 模型。作者标记为异常稳健的唯一防御，是 Anthropic 的宪法分类器，据称它经受住了超过 3000 小时的红队测试——此处为引用，并未重新测试。

防御

把一个会优化的越狱者当作威胁模型，并剥夺其搜索所依赖的东西：奖励信号与无限次尝试。

不要只信任单一护栏分类器。 Llama-Guard 与 ShieldGemma 都被绕过。叠加防御——输入过滤、输出过滤与模型层对齐——并优先采用广泛训练的、宪法式的护栏，而非单一的窄分类器。
饿死稠密奖励。 那个「我离目标有多近」的连续梯度是主要驱动力。避免输出部分顺从、逐步有害的内容；一个干脆而一致的拒绝，所泄露的信号远少于一个攻击者相似度指标可以攀爬的「险些命中」。
限制并监控优化预算。 长回合帮了攻击者。按身份限制查询量、约束多轮精炼，并标记那些重复提交轻微变异提示（rephrase/expand/crossover 模式）的会话——这是自动化红队的操作指纹。
用自适应方法对自己的部署做红队。 静态基准的通过率会高估安全性。上线前用迭代的、奖励驱动的攻击进行评估，并在每次模型或护栏更新后重新测试，因为结果依赖于版本。

现状

项目	参考	日期	备注
研究发表	arXiv:2605.07032	2026-06-02	对 RL 越狱的实证拆解
主要驱动	奖励 + 回合长度	2026-06	环境形式化胜过算法选择
测试目标	Llama-3.2-1B/3B、Qwen3-4B、Tiny-aya	2026-06	仅小型开源权重模型
被绕过的护栏	Llama-Guard、ShieldGemma	2026-06	两者皆被突破；ShieldGemma 拦截更多
稳健的例外（引用）	宪法分类器	2025	超 3000 红队小时，此处未重测

这一结果不是配方，也并非按配方设计。它是一张地图，标出哪些旋钮会让越狱搜索变得高效——因而也标出防御者应停止依赖哪些假设。结论来自小型开源权重模型；同样的结构性杠杆是否在前沿闭源模型上同样占主导，按作者自己的说法，仍是悬而未决的问题。

强化学习越狱：奖励设计与回合长度才是关键

这是什么？

工作原理

为什么重要

防御

现状

Sources