系统:运行中
← 返回所有攻击
DEFENSE MEDIUM NEW

LLM 加盐:旋转拒绝方向以打破越狱复用

SophosAI 的「LLM 加盐」(CAMLIS 2025)对模型的拒绝方向施加一次小幅旋转:针对基座模型预先算好的越狱不再能迁移到你的部署——把彩虹表防御搬到了大模型上。

2026-06-21 // 5 min affects: open-weight-llms, llama-2, vicuna

这是什么?

LLM 加盐(LLM salting)SophosAICAMLIS 2025(弗吉尼亚州阿灵顿)上公布的一种轻量级防御技术——相关演讲题为 LLM Salting: From Rainbow Tables to Jailbreaks,由 Tamás Vörös 于 2025 年 10 月 22 日 发表,随后于 2025 年 10 月 24 日 发布了详细文章。这是一种防御而非攻击——它针对的正是本站数月来从攻击角度持续记录的问题:能够迁移到所有基于同一基座模型构建的部署上的越狱。

我们现在介绍它,是因为它正是本站近期攻击侧发现的防御对应面:越狱通过共享表征迁移,以及拒绝行为存在于可恢复的方向上。加盐攻击的是同一套几何结构——但目的是保护模型而非攻破它。尽管这是一个干净而基础的想法,本站此前一直没有专门收录。

工作原理

先看攻击的经济学。GPT、Claude、Gemini、LLaMA 等大模型部署时几乎不做定制,于是成千上万个面向用户的应用都建立在少数几类模型之上。这种同质性意味着:一旦某个越狱绕过了基座模型的拒绝护栏,它就可以算一次、到处重放——这与口令破解中的彩虹表攻击如出一辙:一张预先算好的表可破解众多目标。

加盐借用了口令安全的对策。在口令中,为每个用户加一个「盐」会让预计算表失效,因为每个哈希都不同了。在大模型里,对应的目标是拒绝方向(refusal direction):近期可解释性工作发现,拒绝行为在很大程度上由激活空间中的单一方向所支配(arXiv:2406.11717)。越狱在实践中就是找到了一种把激活推离该方向的办法。

LLM 加盐是一小步有针对性的微调,它按每个副本各自的量旋转这条拒绝方向。模型仍然拒绝同样的内容——通用能力和良性请求上的准确率都得以保留——但针对未加盐基座模型优化出来的越狱如今瞄错了方向,不再迁移。攻击者被迫针对每个加盐副本重新计算攻击,这就摧毁了让可迁移越狱划算的一对多经济学。在 SophosAI 的实验中(涉及 LLaMA2-7B-Chat 与 Vicuna-7B 等模型),加盐在降低越狱成功率上比标准微调或系统提示改动更有效,且不损害准确率。

为何重要

大多数关于护栏的讨论都聚焦于某一个模型是否会拒绝。加盐把问题重新聚焦到可迁移性——正是这一属性,把某位研究者的巧妙提示变成了整个机群范围的事故。对于任何在流行基座模型上运行面向用户助手的组织而言,现实威胁并不是有人发现了一个专门针对的全新越狱;而是有人重放了一个早已现成、对你的基座模型有效的公开越狱。加盐正是针对这种重放风险。

两点诚实的说明。其一,加盐是一种针对可微调模型、按部署进行的加固步骤——它更适合开放权重或自托管模型,而非你只能调用的封闭 API。其二,它提高的是攻击的成本,而非证明其不可能;拥有查询访问权的攻击者仍可针对加盐副本发起全新的自适应攻击。这正是它应当属于分层策略、而非独立修复手段的原因——近期工作也印证了这点:智能体防御未必能叠加,且自适应攻击者会攻破静态防御

防御

加盐本身就是一种防御,因此实务建议在于如何部署它、以及该与什么搭配。

  1. 为每个部署加盐,且旋转各不相同。 价值来自每个副本的差异:多个部署使用相同的盐会重新制造共享目标的问题。把旋转当作每个实例的秘密来对待。
  2. 验证能力得以保留。 加盐后重新运行良性准确率与拒绝基准测试,确认旋转没有损害有用性、也没有过度触发拒绝。
  3. 与输入/输出控制分层结合。 SophosAI 将加盐定位为对提示过滤与分类器拒绝的补充——参见输出过滤与基于检测器的方法。加盐削弱的是复用;分类器捕获的是已知模式;两者单独都不够。
  4. 持续进行自适应测试。 由于坚定的攻击者可针对加盐副本重新计算,应使用基于优化的迭代红队评估,并把任何残余成功视作发现而非噪声。
  5. 重训练后重新加盐。 任何微调或模型更新都可能移动拒绝的几何结构;把一次新的加盐纳入部署流水线,避免旋转回漂向基座模型。

现状

项目参考日期备注
LLM 加盐公布SophosAI / CAMLIS 2025 演讲2025-10-22《LLM Salting: From Rainbow Tables to Jailbreaks》(T. Vörös)
详细文章Sophos News2025-10-24轻量级微调;旋转拒绝方向
底层发现arXiv:2406.117172024拒绝行为由单一激活方向所中介
测试模型SophosAI 实验2025含 LLaMA2-7B-Chat、Vicuna-7B;优于微调 / 系统提示
适用范围更适合可微调 / 自托管模型;提高成本而非不可能

它的启示,是对越狱常见叙事的一次有用反转。你大概无法阻止一个足够有动机的攻击者越狱你模型的某一个副本。但你可以阻止他用一条预先算好的提示越狱每一个副本——而对于一支近乎完全相同的部署机群来说,这一差别构成了现实风险的绝大部分。

本文出于教育目的,总结了某厂商公开发布的防御性研究。它描述的是一种缓解技术,未复现任何利用代码或越狱提示。

Sources