ADVERSARIAL MEDIUM NEW

Rapid Poison：当反越狱防御沦为攻击面

2026 年 6 月 15 日的一篇 arXiv 论文显示，Rapid Response 防御中的扩增（proliferation）步骤可在 1% 的投毒率下被污染，迫使守卫分类器产生高达 100% 的误报或 96% 的漏报。

2026-06-19 // 7 min affects: llama-guard-4, prompt-guard-2, safety-classifiers, rapid-response-pipelines

这是什么？

2026 年 6 月 15 日，David Huang、Jaewon Chang、Avidan Shah、Prateek Mittal 与 Chawin Sitawarin 发布了 「Rapid Poison: Practical Poisoning Attacks Against the Rapid Response Framework」（arXiv:2606.16242，cs.LG）。它不是一种新的越狱方法，而是针对本应阻止越狱的那套防御的攻击。

攻击目标是 Rapid Response（RR），由 Peng 等人于 2024 年 11 月提出。RR 是一种自适应防御：当一个新型越狱绕过守卫分类器时，攻击会被事后捕获，由一个独立的「扩增」模型将其改写为若干合成变体，再用这些变体微调分类器，使其泛化到整个攻击家族。原论文称其最强变体可将分布内攻击的成功率降低 240 倍以上。据称这种扩增被用于 Anthropic 的 ASL-3 部署护栏（2025 年 5 月），OpenAI 也提出了类似的智能体变体。新论文提出了一个简单的问题：如果攻击者反过来给这个循环喂料，会发生什么？

工作原理

核心洞见是：扩增是一把双刃剑。它把少数稀有的真实越狱样本上采样为大量训练样本，这同时也放大了攻击者对训练集的影响。作者采用了一个刻意收紧的威胁模型：对手只能修改越狱样本（正类），绝不能改动良性数据或标签。被投毒的参考样本仍必须显得真正有害，否则防御方自己的裁判模型会在扩增之前将其剔除。

为同时满足这两个约束，攻击使用一种条件式提示注入：当扩增模型在生成「相似示例」时表现为一种行为，而当防御方校验该参考确为越狱时则表现为另一种行为。其触发条件依赖于扩增任务本身固有的线索，论文认为若不改变合成数据生成的方式，这些线索就无法被剥离。此处不复现任何 payload 或模板；这仅是对一种已发表方法的概述。

这种投递方式可实现两个目标：

目标                  诱发的失效            机制（概念性）
-------------------  ---------------------  ------------------------------------------
定向投毒              误报                  带有所选特征（某种格式、主题、品牌名）的
                     （损害可用性）         良性输入被注入为 unsafe -> 分类器学到
                                            虚假捷径「特征 => unsafe」
基于概念的后门        漏报                  「Omission Attack」：从 unsafe 样本中移除某
                     （绕过安全）           一概念，于是模型把该概念的「存在」学成
                                            safe 信号 -> 把它加进越狱样本即可翻转分类

Omission Attack（遗漏攻击） 是其新意所在：由于所选概念只出现在安全数据中、从不出现在结构相似的被投毒 unsafe 数据中，分类器便错误地把它的存在与 safe 标签关联起来。

为什么重要

考虑到所需的访问权限，论文报告的数字相当惊人。在 1% 的投毒率下——即在 6,000 个样本的训练集中约 18 个被投毒的参考样本——攻击可达到高达 100% 的误报率与高达 96% 的漏报率。针对格式的投毒在选择题与 JSON 输入上达到 100% 误报；针对实体的投毒将约 95–98% 提及某一产品的良性查询标记为 unsafe，却基本不波及相邻实体；基于概念的后门在有害查询上达到 96% 漏报，并迁移到训练中从未见过的触发器。测试以 Llama Guard 4（12B） 与 Prompt Guard 2（86M） 为受害分类器，以 Gemini 2.5/3 作为扩增模型（作者指出 GPT 与 Claude 会拒绝执行扩增任务）。

更深层的教训令人不安：一种数据高效、却从未经控制的真实数据中学习的防御，会继承这些数据的信任问题。作者提出了一个三难困境——RR 无法同时实现快速适应、保持可用性的泛化，以及对训练数据被操纵的鲁棒性。

防御措施

论文评估了两种缓解手段，并坦言两者都不是完整的解决方案。

在扩增之前审查参考样本。 用一个守卫 LLM 过滤进入的参考样本（类似 PromptArmor 的过滤器）能拦下很多，但并非全部——对被投毒参考的聚合漏报率约为 10%，在更难的模板上更低。干净样本与被投毒样本彼此相似，使校准变得困难。应将其视为纵深防御，而非一道关卡。
使用抗注入的扩增模型。 将扩增模型换成对注入加固过的模型（Meta SecAlign 70B），可使针对性的误报率从 98% 降到 0%——但这是针对论文中的静态模板而言。作者提醒这只是一个下界：自适应攻击者会做得好得多。
把安全流水线本身当作可攻击对象。 结构性结论是：基于扩增的循环必须在部署前加固。在「将成为训练标签的数据」与「由不可信第三方提交的数据」之间划分信任域，限制任何单个参考样本的放大倍数，并监控分类器所标记内容的分布是否突变。
识别失效特征。 与某一特定格式、主题或实体相关的良性查询拒绝率骤升，或在某一不寻常概念出现时检测率悄然下降，都与这类投毒一致，值得告警。

状态

项目	详情
论文	arXiv:2606.16242，发表于 2026-06-15
被攻击的防御	Rapid Response 扩增流水线（Peng 等人，2024）
威胁模型	攻击者只修改越狱样本；不控制标签与良性数据
投毒率	约占训练集 1%（约 18 个参考样本）
报告影响	高达 100% 误报；高达 96% 漏报
测试分类器	Llama Guard 4（12B）、Prompt Guard 2（86M）
披露	作者称已通知可能受影响的相关方，并刻意未提供可操作的实施步骤

重点不是说 Rapid Response「失效了」，而是：一种在未经控制的真实数据上训练的防御，本身就是一个攻击目标——任何自适应安全机制都应在部署之前、而非之后，作为攻击面接受红队检验。

Rapid Poison：当反越狱防御沦为攻击面

这是什么？

工作原理

为什么重要

防御措施

状态

Sources