ADVERSARIAL MEDIUM NEW

SlotGCG：决定越狱成败的是对抗 token 的位置，而不仅是其内容

2026 年 6 月的一篇论文显示，当对抗 token 被放置在与注意力相关的插槽时，GCG 类越狱的成功率平均提升约 14%，并在输入过滤防御下仍保留 42% 的成功率。

2026-06-08 // 5 min affects: open-weight-llms

这是什么？

SlotGCG 是一种基于优化的越狱技术，于 2026 年 6 月 发表在 arXiv 上（2606.05609），作者为首尔东国大学的研究者。它重新审视了对抗后缀攻击中一个由来已久的假设：即后缀（提示词的末尾）是放置经过优化的对抗 token 的最佳位置。

这里的参照攻击是 GCG（贪婪坐标梯度，Zou et al., 2023）：它在提示词末尾附加一串通过梯度优化的 token，以促使已对齐的模型服从有害请求。自那以后的所有 GCG 变体都把这些 token 放在末尾。SlotGCG 的结论简单却令人不安：对抗 token 插入的位置与其内容同样重要，而后缀往往并非最脆弱的位置。

工作原理

论文用**插槽（slot）**的概念将插入点一般化。对于长度为 L 的提示词，存在 L+1 个候选插槽——第一个 token 之前一个、每对 token 之间各一个、最后一个 token 之后一个。GCG 只使用最后一个插槽。

SlotGCG 则用 脆弱插槽分数（Vulnerable Slot Score，VSS） 对所有插槽评分——该指标估计每个位置对对抗插入的易感程度——然后将优化集中在得分最高的插槽上。该流程是攻击无关的：作者称它是一个位置搜索前端，可以挂接到任意基于优化的攻击之上，仅增加约 200 毫秒 的预处理开销。

此处不复现任何 payload——权威参考是论文本身。重要的是其概念形态：

经典 GCG：  [ 有害请求 ] [ 优化后缀 ]
                        └── 仅在此处

SlotGCG：   [ ... ] [REDACTED] [ ... ] [REDACTED] [ ... ]
                    └── 插入到 VSS 最高的插槽，
                        而这些通常并不是后缀

探索性研究中的两个结果才是真正的看点：

脆弱插槽与模型的注意力一致。 最易被攻击的位置与模型对输入的注意力模式高度相关。即便插入的 token 发生变化，这些位置仍然脆弱——也就是说，弱点是位置的属性，而非某个特定”魔法字符串”的属性。作者认为，每条提示词本身都内含其专属的脆弱插槽。
收益可量化。 在所测试的 GCG 类方法与模型上平均而言，选择高 VSS 插槽可使攻击成功率（ASR）提升约 14%，以更少的优化步数收敛，并且——对防御方至关重要——在输入过滤防御下仍多保留 42% 的成功率。

为什么重要

重点不是”又一个越狱”。GCG 自 2023 年起就已公开。重点在于：一整类防御被隐性地调校在了错误的位置上。

许多实际护栏都假设对抗噪声位于提示词末尾：偏向末尾的困惑度检查、后缀剥离、“截断用户问题之后的一切”。SlotGCG 将扰动分散到贯穿整条提示词、与注意力相关的插槽上，这正是它在仅后缀攻击会失效的输入过滤下仍保留 42% 效力的原因。如果你的输入侧防御只针对原版 GCG 做过验证，那套验证或许并不能迁移。

注意力相关性对检测研究也很重要。它表明该脆弱性是结构性的——与 Transformer 如何对输入加权有关——而非某个优化后缀的偶然现象。这对基于原理的防御是好消息（存在可监控的信号），对做模式匹配的防御是坏消息（没有固定字符串可拦截）。

范围说明：GCG 与 SlotGCG 都是需要梯度访问的白盒攻击，因此直接目标是你自行托管或微调的开放权重模型。GCG 的原始工作表明优化后缀可迁移到闭源模型，但 SlotGCG 的位置搜索是白盒流程。应首先把它视为针对你所运营模型的、更锋利的红队工具，并把它当作”仅靠对齐不构成部署管控”的证据。

防御

不要只防守后缀。 对整条序列施加困惑度与异常检查，使用滑动窗口，而非只看末尾。SlotGCG 保留的 42% 成功率，正是因为聚焦后缀的过滤器漏掉了提示词中段的扰动。
做输入变换，而不仅是检测。 改写与重新分词（Jain et al., 2023）会破坏这类攻击所依赖的、脆弱且依赖位置的 token 排布，因为它们会移动或重写被瞄准的插槽。这会牺牲输出质量，应用于高风险路径。
监控注意力，而非字符串。 由于脆弱插槽与注意力集中度相关，针对注意力模式的异常检测比拉黑后缀是更持久的信号。它尚处研究阶段，但正是该结论所指向的方向。
分层防御。 将输入侧措施与输出侧的拒绝/安全分类器以及工具调用门控相结合，使被越狱的生成在造成危害或触发动作之前仍需通过第二道检查。
管控开放权重与微调部署。 白盒梯度访问是此攻击的前提。自托管模型才是现实目标：用运行时护栏与监控把它们围起来，而不要依赖其内置对齐。
用位置可变的攻击重测护栏。 如果你的红队框架只跑后缀式 GCG，请加入插槽可变的插入。一个能扛住原版 GCG 的护栏，在这里可能失效。

现状

项目	参考	日期	备注
SlotGCG	arXiv 2606.05609	2026-06	位置搜索前端；VSS 指标；ASR +14%，输入过滤下 ASR +42%
GCG（基线）	arXiv 2307.15043	2023-07	仅后缀的对抗优化；SlotGCG 所打破的假设
基线防御	arXiv 2309.00614	2023-09	困惑度检测、改写、重新分词、对抗训练

给防御方的要点：输入过滤器的价值，取决于它所检查的位置。SlotGCG 提醒我们：“攻击在提示词末尾”始终只是一个假设——而护栏正是在假设之处悄然失守。

SlotGCG：决定越狱成败的是对抗 token 的位置，而不仅是其内容

这是什么？

工作原理

为什么重要

防御

现状

Sources