SlotGCG:决定越狱成败的是对抗 token 的位置,而不仅是其内容
2026 年 6 月的一篇论文显示,当对抗 token 被放置在与注意力相关的插槽时,GCG 类越狱的成功率平均提升约 14%,并在输入过滤防御下仍保留 42% 的成功率。
这是什么?
SlotGCG 是一种基于优化的越狱技术,于 2026 年 6 月 发表在 arXiv 上(2606.05609),作者为首尔东国大学的研究者。它重新审视了对抗后缀攻击中一个由来已久的假设:即后缀(提示词的末尾)是放置经过优化的对抗 token 的最佳位置。
这里的参照攻击是 GCG(贪婪坐标梯度,Zou et al., 2023):它在提示词末尾附加一串通过梯度优化的 token,以促使已对齐的模型服从有害请求。自那以后的所有 GCG 变体都把这些 token 放在末尾。SlotGCG 的结论简单却令人不安:对抗 token 插入的位置与其内容同样重要,而后缀往往并非最脆弱的位置。
工作原理
论文用**插槽(slot)**的概念将插入点一般化。对于长度为 L 的提示词,存在 L+1 个候选插槽——第一个 token 之前一个、每对 token 之间各一个、最后一个 token 之后一个。GCG 只使用最后一个插槽。
SlotGCG 则用 脆弱插槽分数(Vulnerable Slot Score,VSS) 对所有插槽评分——该指标估计每个位置对对抗插入的易感程度——然后将优化集中在得分最高的插槽上。该流程是攻击无关的:作者称它是一个位置搜索前端,可以挂接到任意基于优化的攻击之上,仅增加约 200 毫秒 的预处理开销。
此处不复现任何 payload——权威参考是论文本身。重要的是其概念形态:
经典 GCG: [ 有害请求 ] [ 优化后缀 ]
└── 仅在此处
SlotGCG: [ ... ] [REDACTED] [ ... ] [REDACTED] [ ... ]
└── 插入到 VSS 最高的插槽,
而这些通常并不是后缀
探索性研究中的两个结果才是真正的看点:
- 脆弱插槽与模型的注意力一致。 最易被攻击的位置与模型对输入的注意力模式高度相关。即便插入的 token 发生变化,这些位置仍然脆弱——也就是说,弱点是位置的属性,而非某个特定”魔法字符串”的属性。作者认为,每条提示词本身都内含其专属的脆弱插槽。
- 收益可量化。 在所测试的 GCG 类方法与模型上平均而言,选择高 VSS 插槽可使攻击成功率(ASR)提升约 14%,以更少的优化步数收敛,并且——对防御方至关重要——在输入过滤防御下仍多保留 42% 的成功率。
为什么重要
重点不是”又一个越狱”。GCG 自 2023 年起就已公开。重点在于:一整类防御被隐性地调校在了错误的位置上。
许多实际护栏都假设对抗噪声位于提示词末尾:偏向末尾的困惑度检查、后缀剥离、“截断用户问题之后的一切”。SlotGCG 将扰动分散到贯穿整条提示词、与注意力相关的插槽上,这正是它在仅后缀攻击会失效的输入过滤下仍保留 42% 效力的原因。如果你的输入侧防御只针对原版 GCG 做过验证,那套验证或许并不能迁移。
注意力相关性对检测研究也很重要。它表明该脆弱性是结构性的——与 Transformer 如何对输入加权有关——而非某个优化后缀的偶然现象。这对基于原理的防御是好消息(存在可监控的信号),对做模式匹配的防御是坏消息(没有固定字符串可拦截)。
范围说明:GCG 与 SlotGCG 都是需要梯度访问的白盒攻击,因此直接目标是你自行托管或微调的开放权重模型。GCG 的原始工作表明优化后缀可迁移到闭源模型,但 SlotGCG 的位置搜索是白盒流程。应首先把它视为针对你所运营模型的、更锋利的红队工具,并把它当作”仅靠对齐不构成部署管控”的证据。
防御
- 不要只防守后缀。 对整条序列施加困惑度与异常检查,使用滑动窗口,而非只看末尾。SlotGCG 保留的 42% 成功率,正是因为聚焦后缀的过滤器漏掉了提示词中段的扰动。
- 做输入变换,而不仅是检测。 改写与重新分词(Jain et al., 2023)会破坏这类攻击所依赖的、脆弱且依赖位置的 token 排布,因为它们会移动或重写被瞄准的插槽。这会牺牲输出质量,应用于高风险路径。
- 监控注意力,而非字符串。 由于脆弱插槽与注意力集中度相关,针对注意力模式的异常检测比拉黑后缀是更持久的信号。它尚处研究阶段,但正是该结论所指向的方向。
- 分层防御。 将输入侧措施与输出侧的拒绝/安全分类器以及工具调用门控相结合,使被越狱的生成在造成危害或触发动作之前仍需通过第二道检查。
- 管控开放权重与微调部署。 白盒梯度访问是此攻击的前提。自托管模型才是现实目标:用运行时护栏与监控把它们围起来,而不要依赖其内置对齐。
- 用位置可变的攻击重测护栏。 如果你的红队框架只跑后缀式 GCG,请加入插槽可变的插入。一个能扛住原版 GCG 的护栏,在这里可能失效。
现状
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| SlotGCG | arXiv 2606.05609 | 2026-06 | 位置搜索前端;VSS 指标;ASR +14%,输入过滤下 ASR +42% |
| GCG(基线) | arXiv 2307.15043 | 2023-07 | 仅后缀的对抗优化;SlotGCG 所打破的假设 |
| 基线防御 | arXiv 2309.00614 | 2023-09 | 困惑度检测、改写、重新分词、对抗训练 |
给防御方的要点:输入过滤器的价值,取决于它所检查的位置。SlotGCG 提醒我们:“攻击在提示词末尾”始终只是一个假设——而护栏正是在假设之处悄然失守。