JAILBREAK
(12)12 个攻击.
CTF 框架越狱:提示词会泄漏到攻击里
Sysdig(2026 年 6 月 15 日)发现,攻击者把漏洞利用请求伪装成 CTF 或 CVE 狩猎,从而越狱自己的编码助手;这种框架会渗入 User-Agent、密码和 IAM 日志,给防御方留下一个廉价的指纹。
认知过载:低图像分辨率如何越狱多模态大模型
2026年5月的一篇论文(Findings of ACL 2026)表明,降低渲染为图像的文本的分辨率,会把前沿多模态大模型推入一个「攻击舒适区」,此时安全对齐崩溃,而 OCR 仍然准确。
强化学习越狱:奖励设计与回合长度才是关键
2026 年 6 月的一项研究拆解了基于强化学习的越狱,发现攻击者对环境的设计——稠密奖励与长回合——比算法本身更重要。
UniAttack:一个针对分层 LLM 防御的自动化越狱框架
2026 年 6 月的一篇预印本构建了一个组合多种策略的自动化红队框架,并将其用于具有叠加防御的模型,结果表明:堆叠防护栏并不能保证鲁棒性。
自适应越狱持续攻破 LLM 防御:真正的缺口在于评估
2026 年 6 月的框架 UniAttack 将可复用的攻击「特征」组合成一次性越狱提示,可在不同模型与防御之间迁移——这提醒我们:仅用静态攻击测试过的防御只能带来虚假的安全感。
IICL:用 10 个示例让模式补全压过安全对齐
2026 年 4 月的一篇 arXiv 论文把上下文学习反过来对付模型:约十个抽象算子示例,就能让 GPT-5.4 补全一个其内容过滤器从未察觉的有害模式。
Para-jailbreaking:当「安全补全」把危害藏进替代答案里
2026 年 4 月 27 日的一篇 arXiv 论文为面向输出的安全机制命名了一种新失效模式:模型正确拒绝了直接提问,却在它转而给出的「安全替代答案」中泄露了有害内容。
多片段视频越狱:为什么视频会击穿多模态大模型的安全防线
2026 年 6 月的一篇 ACL 论文表明,视频通道是比图像更脆弱的安全边界:当视频被切分为多个多样化短片段时,攻击成功率随之上升。
CodeSpear:当语法约束解码成为越狱攻击面
2026 年 6 月 10 日的一篇 arXiv 论文表明,强制 LLM 代码输出语法有效的可靠性功能本身可被用作越狱手段。施加一个看似无害的代码语法即可绕过拒答;作者提出的 CodeShield 防御以蜜罐代码作答。
Sockpuppeting:一行 prefill 越狱 11 个生产级大模型
在请求的最后一条消息中以 assistant 角色注入一行文本,即可让 10 个主流模型中的 7 个生成有害内容。真正的修复并不在模型一侧,而是 API 层对消息顺序的校验。
数学编码越狱:当集合论绕过大语言模型安全防线
2026年5月5日发布的一篇arXiv论文表明,将有害提示重写为集合论或形式逻辑问题,可在八个前沿模型上以46%–56%的成功率绕过安全训练——但前提是由辅助大语言模型完成深度重写。
Many-shot 越狱:用 256 个示例绕过任何对齐
Anthropic 研究人员表明,用 256 个虚假 Q&A 示例填充上下文窗口可以可靠地绕过安全训练。更大的上下文 = 更大的攻击面。