DEFENSE MEDIUM NEW

LLM 加盐：旋转拒绝方向以打破越狱复用

SophosAI 的「LLM 加盐」（CAMLIS 2025）对模型的拒绝方向施加一次小幅旋转：针对基座模型预先算好的越狱不再能迁移到你的部署——把彩虹表防御搬到了大模型上。

2026-06-21 // 5 min affects: open-weight-llms, llama-2, vicuna

这是什么？

LLM 加盐（LLM salting） 是 SophosAI 在 CAMLIS 2025（弗吉尼亚州阿灵顿）上公布的一种轻量级防御技术——相关演讲题为 LLM Salting: From Rainbow Tables to Jailbreaks，由 Tamás Vörös 于 2025 年 10 月 22 日 发表，随后于 2025 年 10 月 24 日发布了详细文章。这是一种防御而非攻击——它针对的正是本站数月来从攻击角度持续记录的问题：能够迁移到所有基于同一基座模型构建的部署上的越狱。

我们现在介绍它，是因为它正是本站近期攻击侧发现的防御对应面：越狱通过共享表征迁移，以及拒绝行为存在于可恢复的方向上。加盐攻击的是同一套几何结构——但目的是保护模型而非攻破它。尽管这是一个干净而基础的想法，本站此前一直没有专门收录。

工作原理

先看攻击的经济学。GPT、Claude、Gemini、LLaMA 等大模型部署时几乎不做定制，于是成千上万个面向用户的应用都建立在少数几类模型之上。这种同质性意味着：一旦某个越狱绕过了基座模型的拒绝护栏，它就可以算一次、到处重放——这与口令破解中的彩虹表攻击如出一辙：一张预先算好的表可破解众多目标。

加盐借用了口令安全的对策。在口令中，为每个用户加一个「盐」会让预计算表失效，因为每个哈希都不同了。在大模型里，对应的目标是拒绝方向（refusal direction）：近期可解释性工作发现，拒绝行为在很大程度上由激活空间中的单一方向所支配（arXiv:2406.11717）。越狱在实践中就是找到了一种把激活推离该方向的办法。

LLM 加盐是一小步有针对性的微调，它按每个副本各自的量旋转这条拒绝方向。模型仍然拒绝同样的内容——通用能力和良性请求上的准确率都得以保留——但针对未加盐基座模型优化出来的越狱如今瞄错了方向，不再迁移。攻击者被迫针对每个加盐副本重新计算攻击，这就摧毁了让可迁移越狱划算的一对多经济学。在 SophosAI 的实验中（涉及 LLaMA2-7B-Chat 与 Vicuna-7B 等模型），加盐在降低越狱成功率上比标准微调或系统提示改动更有效，且不损害准确率。

为何重要

大多数关于护栏的讨论都聚焦于某一个模型是否会拒绝。加盐把问题重新聚焦到可迁移性——正是这一属性，把某位研究者的巧妙提示变成了整个机群范围的事故。对于任何在流行基座模型上运行面向用户助手的组织而言，现实威胁并不是有人发现了一个专门针对你的全新越狱；而是有人重放了一个早已现成、对你的基座模型有效的公开越狱。加盐正是针对这种重放风险。

两点诚实的说明。其一，加盐是一种针对可微调模型、按部署进行的加固步骤——它更适合开放权重或自托管模型，而非你只能调用的封闭 API。其二，它提高的是攻击的成本，而非证明其不可能；拥有查询访问权的攻击者仍可针对加盐副本发起全新的自适应攻击。这正是它应当属于分层策略、而非独立修复手段的原因——近期工作也印证了这点：智能体防御未必能叠加，且自适应攻击者会攻破静态防御。

防御

加盐本身就是一种防御，因此实务建议在于如何部署它、以及该与什么搭配。

为每个部署加盐，且旋转各不相同。 价值来自每个副本的差异：多个部署使用相同的盐会重新制造共享目标的问题。把旋转当作每个实例的秘密来对待。
验证能力得以保留。 加盐后重新运行良性准确率与拒绝基准测试，确认旋转没有损害有用性、也没有过度触发拒绝。
与输入/输出控制分层结合。 SophosAI 将加盐定位为对提示过滤与分类器拒绝的补充——参见输出过滤与基于检测器的方法。加盐削弱的是复用；分类器捕获的是已知模式；两者单独都不够。
持续进行自适应测试。 由于坚定的攻击者可针对加盐副本重新计算，应使用基于优化的迭代红队评估，并把任何残余成功视作发现而非噪声。
重训练后重新加盐。 任何微调或模型更新都可能移动拒绝的几何结构；把一次新的加盐纳入部署流水线，避免旋转回漂向基座模型。

现状

项目	参考	日期	备注
LLM 加盐公布	SophosAI / CAMLIS 2025 演讲	2025-10-22	《LLM Salting: From Rainbow Tables to Jailbreaks》（T. Vörös）
详细文章	Sophos News	2025-10-24	轻量级微调；旋转拒绝方向
底层发现	arXiv:2406.11717	2024	拒绝行为由单一激活方向所中介
测试模型	SophosAI 实验	2025	含 LLaMA2-7B-Chat、Vicuna-7B；优于微调 / 系统提示
适用范围	—	—	更适合可微调 / 自托管模型；提高成本而非不可能

它的启示，是对越狱常见叙事的一次有用反转。你大概无法阻止一个足够有动机的攻击者越狱你模型的某一个副本。但你可以阻止他用一条预先算好的提示越狱每一个副本——而对于一支近乎完全相同的部署机群来说，这一差别构成了现实风险的绝大部分。

本文出于教育目的，总结了某厂商公开发布的防御性研究。它描述的是一种缓解技术，未复现任何利用代码或越狱提示。

LLM 加盐：旋转拒绝方向以打破越狱复用

这是什么？

工作原理

为何重要

防御

现状

Sources