自适应越狱持续攻破 LLM 防御:真正的缺口在于评估
2026 年 6 月的框架 UniAttack 将可复用的攻击「特征」组合成一次性越狱提示,可在不同模型与防御之间迁移——这提醒我们:仅用静态攻击测试过的防御只能带来虚假的安全感。
这是什么?
2026 年 6 月 15 日,一篇题为 Automated jailbreak attack targeting multiple defense strategies 的论文提出了 UniAttack——一个从一小批可复用攻击「特征」中构建黑盒越狱提示的框架。它不为单一模型手工编写提示,也不针对单一目标反复调参,而是从已有攻击中提取数量有限但影响显著的特征,用一个专门的攻击模型进行优化,再将其组合成灵活的模板。作者报告称,这种以特征为中心的构建方式能产生在多个模型与多种安全类别之间通用的一次性攻击。
这一结果的价值,与其说在于某条具体提示,不如说在于它印证了一个结构性问题:一项被设计为可移植、并明确针对多种防御进行评估的越狱技术,往往会持续奏效。我们在此并非发布一种新型攻击——这是已公开发表的研究,而它传递的教训是防御性的。
工作原理
就防御者关心的层面而言,其机制在于「组合」。UniAttack 不把越狱视为一整串单体文本,而视为若干独立「特征」的堆叠——这些是历史上多次将模型推离其防护栏的反复出现的操控手法。框架从以往攻击的语料中提取这些特征,并通过自动化的精炼循环重新组合,从而产出不依赖于某一特定模型怪癖的模板。本文不复现任何 payload,理解要点也无需任何 payload。
这属于一个有充分记录的模式。2025 年 10 月的研究 The Attacker Moves Second 表明:通过系统性地扩展通用优化技术——梯度下降、强化学习、随机搜索以及人工引导的红队——研究者绕过了十二种近期防御,其中许多在最初测试所用的静态攻击下都声称具备近乎完全的鲁棒性。更早的 Adaptive Attacks Break Defenses Against Indirect Prompt Injection 在智能体场景中得出相同结论:一旦攻击者能够针对防御的设计自我调整,看似稳固的防御便会崩溃。2025 年关于 LLM 生态中越狱攻击与防御的综述 将其归结为该领域反复出现的评估缺陷。
贯穿其中的主线是:许多已发表的防御所对照的威胁模型是错的。 它们报告的是面对其设计时已存在攻击的成功率,而非面对一个明知防御存在、并据此进行优化的攻击者。
为何重要
对于任何在防护栏之后部署 LLM 的人,这重新定义了基准分数的含义。一项宣称攻击成功率很低的防御,报告的是它面对已知攻击「快照」的表现。像 UniAttack 这样的框架被明确设计为超越该快照,而自适应攻击研究持续表明:单层防御——单一的提示分类器、关键词过滤、仅做拒绝微调的模型——一旦被攻击者直接针对,便会急剧失效。
实际风险是虚假的安全感。一个团队若凭已发表的鲁棒性来选择防护栏,却不在自身场景中以自适应方式重新测试,其暴露面可能远高于公开数字所暗示的程度。可移植性进一步放大了问题:针对某种流行安全栈调好的模板,可能会无代价地迁移到你的系统上。
防御
研究并未说防御无用——而是说必须正确地评估并分层。
- 进行自适应测试,而非静态测试。 用一个被允许查看并针对你具体配置进行优化的攻击者,来评估任何防护栏。静态基准给出的鲁棒性数字是下限,而非保证。把自适应评估作为常态化实践,而非一次性关卡。
- 预设可迁移。 默认把已发表的攻击框架视为适用于你的技术栈。若某个可移植越狱能攻破同类安全模型,在你证伪之前,就当它对你也有效来设计。
- 叠加语义与统计防御。 自适应攻击经常击穿那些依赖表层异常的单一层。将输入/输出过滤与语义检查、基于表征的检测 以及 指令层级 结合起来,使攻破一层不等于攻破整个系统。
- 限制爆炸半径。 被越狱的模型在能够「行动」时最危险。限制工具访问、收紧权限、对高影响操作设闸,使被绕过的防护栏不会直接转化为有害能力。参见更宏观的 鲁棒性框架。
- 持续开展红队。 防御会随着攻击演进而衰减。把多样化、面向 quality-diversity 的 红队 与自适应测试纳入发布周期,而非将安全视为固定属性。
状态
| 研究 | 时间 | 贡献 | 防御者要点 |
|---|---|---|---|
| UniAttack(2606.16751) | 2026 年 6 月 | 由特征组合而成、可跨模型与防御迁移的一次性越狱 | 可移植攻击侵蚀「按模型」假设 |
| The Attacker Moves Second(2510.09023) | 2025 年 10 月 | 自适应优化绕过 12 种近期防御 | 静态基准鲁棒性 ≠ 真实鲁棒性 |
| 自适应攻击 vs. IPI 防御(2503.00061) | 2025 年 | 间接注入防御在自适应攻击者面前失守 | 同样的缺口存在于智能体场景 |
正确的解读不是「越狱无法被击败」,而是:一项防御的强度,只取决于测试它时所用的攻击者——而在 2026 年年中,最廉价、最易移植的攻击者是自动化且自适应的。内化这一点的防御者,会持续用移动靶来测试防护栏、对其进行分层,并限制一次绕过所能触及的范围,而这远在任何单一基准数字失效之后仍然成立。