JAILBREAK

(12)

12 个攻击.

JAILBREAK MEDIUM NEW

CTF 框架越狱：提示词会泄漏到攻击里

Sysdig（2026 年 6 月 15 日）发现，攻击者把漏洞利用请求伪装成 CTF 或 CVE 狩猎，从而越狱自己的编码助手；这种框架会渗入 User-Agent、密码和 IAM 日志，给防御方留下一个廉价的指纹。

2026-06-21//7 min

JAILBREAK MEDIUM NEW

认知过载：低图像分辨率如何越狱多模态大模型

2026年5月的一篇论文（Findings of ACL 2026）表明，降低渲染为图像的文本的分辨率，会把前沿多模态大模型推入一个「攻击舒适区」，此时安全对齐崩溃，而 OCR 仍然准确。

2026-06-21//5 min

JAILBREAK MEDIUM NEW

强化学习越狱：奖励设计与回合长度才是关键

2026 年 6 月的一项研究拆解了基于强化学习的越狱，发现攻击者对环境的设计——稠密奖励与长回合——比算法本身更重要。

2026-06-20//6 min

JAILBREAK MEDIUM NEW

UniAttack：一个针对分层 LLM 防御的自动化越狱框架

2026 年 6 月的一篇预印本构建了一个组合多种策略的自动化红队框架，并将其用于具有叠加防御的模型，结果表明：堆叠防护栏并不能保证鲁棒性。

2026-06-20//5 min

JAILBREAK MEDIUM NEW

自适应越狱持续攻破 LLM 防御：真正的缺口在于评估

2026 年 6 月的框架 UniAttack 将可复用的攻击「特征」组合成一次性越狱提示，可在不同模型与防御之间迁移——这提醒我们：仅用静态攻击测试过的防御只能带来虚假的安全感。

2026-06-18//5 min

JAILBREAK MEDIUM

IICL：用 10 个示例让模式补全压过安全对齐

2026 年 4 月的一篇 arXiv 论文把上下文学习反过来对付模型：约十个抽象算子示例，就能让 GPT-5.4 补全一个其内容过滤器从未察觉的有害模式。

2026-06-17//6 min

JAILBREAK MEDIUM NEW

Para-jailbreaking：当「安全补全」把危害藏进替代答案里

2026 年 4 月 27 日的一篇 arXiv 论文为面向输出的安全机制命名了一种新失效模式：模型正确拒绝了直接提问，却在它转而给出的「安全替代答案」中泄露了有害内容。

2026-06-16//6 min

JAILBREAK MEDIUM NEW

多片段视频越狱：为什么视频会击穿多模态大模型的安全防线

2026 年 6 月的一篇 ACL 论文表明，视频通道是比图像更脆弱的安全边界：当视频被切分为多个多样化短片段时，攻击成功率随之上升。

2026-06-14//6 min

JAILBREAK MEDIUM NEW

CodeSpear：当语法约束解码成为越狱攻击面

2026 年 6 月 10 日的一篇 arXiv 论文表明，强制 LLM 代码输出语法有效的可靠性功能本身可被用作越狱手段。施加一个看似无害的代码语法即可绕过拒答；作者提出的 CodeShield 防御以蜜罐代码作答。

2026-06-12//5 min

JAILBREAK MEDIUM NEW

Sockpuppeting:一行 prefill 越狱 11 个生产级大模型

在请求的最后一条消息中以 assistant 角色注入一行文本,即可让 10 个主流模型中的 7 个生成有害内容。真正的修复并不在模型一侧,而是 API 层对消息顺序的校验。

2026-05-28//8 分钟

JAILBREAK MEDIUM

数学编码越狱:当集合论绕过大语言模型安全防线

2026年5月5日发布的一篇arXiv论文表明,将有害提示重写为集合论或形式逻辑问题,可在八个前沿模型上以46%–56%的成功率绕过安全训练——但前提是由辅助大语言模型完成深度重写。

2026-05-25//8 分钟

JAILBREAK CRITICAL

Many-shot 越狱：用 256 个示例绕过任何对齐

Anthropic 研究人员表明，用 256 个虚假 Q&A 示例填充上下文窗口可以可靠地绕过安全训练。更大的上下文 = 更大的攻击面。

2026-05-15//6 分钟