Rapid Poison:当反越狱防御沦为攻击面
2026 年 6 月 15 日的一篇 arXiv 论文显示,Rapid Response 防御中的扩增(proliferation)步骤可在 1% 的投毒率下被污染,迫使守卫分类器产生高达 100% 的误报或 96% 的漏报。
这是什么?
2026 年 6 月 15 日,David Huang、Jaewon Chang、Avidan Shah、Prateek Mittal 与 Chawin Sitawarin 发布了 「Rapid Poison: Practical Poisoning Attacks Against the Rapid Response Framework」(arXiv:2606.16242,cs.LG)。它不是一种新的越狱方法,而是针对本应阻止越狱的那套防御的攻击。
攻击目标是 Rapid Response(RR),由 Peng 等人于 2024 年 11 月 提出。RR 是一种自适应防御:当一个新型越狱绕过守卫分类器时,攻击会被事后捕获,由一个独立的「扩增」模型将其改写为若干合成变体,再用这些变体微调分类器,使其泛化到整个攻击家族。原论文称其最强变体可将分布内攻击的成功率降低 240 倍以上。据称这种扩增被用于 Anthropic 的 ASL-3 部署护栏(2025 年 5 月),OpenAI 也提出了类似的智能体变体。新论文提出了一个简单的问题:如果攻击者反过来给这个循环喂料,会发生什么?
工作原理
核心洞见是:扩增是一把双刃剑。它把少数稀有的真实越狱样本上采样为大量训练样本,这同时也放大了攻击者对训练集的影响。作者采用了一个刻意收紧的威胁模型:对手只能修改越狱样本(正类),绝不能改动良性数据或标签。被投毒的参考样本仍必须显得真正有害,否则防御方自己的裁判模型会在扩增之前将其剔除。
为同时满足这两个约束,攻击使用一种条件式提示注入:当扩增模型在生成「相似示例」时表现为一种行为,而当防御方校验该参考确为越狱时则表现为另一种行为。其触发条件依赖于扩增任务本身固有的线索,论文认为若不改变合成数据生成的方式,这些线索就无法被剥离。此处不复现任何 payload 或模板;这仅是对一种已发表方法的概述。
这种投递方式可实现两个目标:
目标 诱发的失效 机制(概念性)
------------------- --------------------- ------------------------------------------
定向投毒 误报 带有所选特征(某种格式、主题、品牌名)的
(损害可用性) 良性输入被注入为 unsafe -> 分类器学到
虚假捷径「特征 => unsafe」
基于概念的后门 漏报 「Omission Attack」:从 unsafe 样本中移除某
(绕过安全) 一概念,于是模型把该概念的「存在」学成
safe 信号 -> 把它加进越狱样本即可翻转分类
Omission Attack(遗漏攻击) 是其新意所在:由于所选概念只出现在安全数据中、从不出现在结构相似的被投毒 unsafe 数据中,分类器便错误地把它的存在与 safe 标签关联起来。
为什么重要
考虑到所需的访问权限,论文报告的数字相当惊人。在 1% 的投毒率下——即在 6,000 个样本的训练集中约 18 个被投毒的参考样本——攻击可达到高达 100% 的误报率与高达 96% 的漏报率。针对格式的投毒在选择题与 JSON 输入上达到 100% 误报;针对实体的投毒将约 95–98% 提及某一产品的良性查询标记为 unsafe,却基本不波及相邻实体;基于概念的后门在有害查询上达到 96% 漏报,并迁移到训练中从未见过的触发器。测试以 Llama Guard 4(12B) 与 Prompt Guard 2(86M) 为受害分类器,以 Gemini 2.5/3 作为扩增模型(作者指出 GPT 与 Claude 会拒绝执行扩增任务)。
更深层的教训令人不安:一种数据高效、却从未经控制的真实数据中学习的防御,会继承这些数据的信任问题。作者提出了一个三难困境——RR 无法同时实现快速适应、保持可用性的泛化,以及对训练数据被操纵的鲁棒性。
防御措施
论文评估了两种缓解手段,并坦言两者都不是完整的解决方案。
- 在扩增之前审查参考样本。 用一个守卫 LLM 过滤进入的参考样本(类似 PromptArmor 的过滤器)能拦下很多,但并非全部——对被投毒参考的聚合漏报率约为 10%,在更难的模板上更低。干净样本与被投毒样本彼此相似,使校准变得困难。应将其视为纵深防御,而非一道关卡。
- 使用抗注入的扩增模型。 将扩增模型换成对注入加固过的模型(Meta SecAlign 70B),可使针对性的误报率从 98% 降到 0%——但这是针对论文中的静态模板而言。作者提醒这只是一个下界:自适应攻击者会做得好得多。
- 把安全流水线本身当作可攻击对象。 结构性结论是:基于扩增的循环必须在部署前加固。在「将成为训练标签的数据」与「由不可信第三方提交的数据」之间划分信任域,限制任何单个参考样本的放大倍数,并监控分类器所标记内容的分布是否突变。
- 识别失效特征。 与某一特定格式、主题或实体相关的良性查询拒绝率骤升,或在某一不寻常概念出现时检测率悄然下降,都与这类投毒一致,值得告警。
状态
| 项目 | 详情 |
|---|---|
| 论文 | arXiv:2606.16242,发表于 2026-06-15 |
| 被攻击的防御 | Rapid Response 扩增流水线(Peng 等人,2024) |
| 威胁模型 | 攻击者只修改越狱样本;不控制标签与良性数据 |
| 投毒率 | 约占训练集 1%(约 18 个参考样本) |
| 报告影响 | 高达 100% 误报;高达 96% 漏报 |
| 测试分类器 | Llama Guard 4(12B)、Prompt Guard 2(86M) |
| 披露 | 作者称已通知可能受影响的相关方,并刻意未提供可操作的实施步骤 |
重点不是说 Rapid Response「失效了」,而是:一种在未经控制的真实数据上训练的防御,本身就是一个攻击目标——任何自适应安全机制都应在部署之前、而非之后,作为攻击面接受红队检验。