JAILBREAK MEDIUM

IICL：用 10 个示例让模式补全压过安全对齐

2026 年 4 月的一篇 arXiv 论文把上下文学习反过来对付模型：约十个抽象算子示例，就能让 GPT-5.4 补全一个其内容过滤器从未察觉的有害模式。

2026-06-17 // 6 min affects: gpt-5.4, openai-models, in-context-learning-llms

这是什么？

2026 年 4 月 21 日，一篇题为 《Involuntary In-Context Learning: Exploiting Few-Shot Pattern Completion to Bypass Safety Alignment in GPT-5.4》（arXiv:2604.19461）的论文提出了 IICL——一类不与模型安全训练正面对抗、而是利用上下文学习赖以运作的同一机制来绕过它的越狱手法。该技术被收录进 Adversa AI 的 2026 年 6 月 GenAI 安全综述，本文也由此发现这一选题。

其核心是对齐未能化解的一种结构性张力：语言模型既被训练去拒绝有害请求，又被训练去补全其上下文中出现的模式。IICL 让后一种冲动去对抗前一种。攻击者不直接索取有害内容，而是把任务包装成一个抽象的模式补全练习；面向识别有害请求而调校的内容级安全过滤器，对这种看似无害的格式化任务从不触发。

这与 many-shot 越狱不同——后者把数百个明确的有害问答对塞进长上下文。IICL 仅靠结构性改写、约十个示例即可奏效。

工作原理

已发表的方法定义了两个抽象算子——例如一个用于”产生”某个值、另一个用于”验证”它——并给出一小组示例，隐式地教会一种映射：无害输入对应有效结果。随后要求模型为一个新的输入产生输出，使得验证算子仍然有效。由于有害内容被包装成抽象的算子求值而非直接请求，安全分类器读到的表层看起来像格式化或符号推理任务，于是模式补全占据主导。

此处不复现任何算子、示例或 payload：这是对一项已发表且经同行评审方法的概述，而非可用的操作配方。

让该论文对防御有用的是其消融实验。在 对 10 个 OpenAI 模型进行的 3,479 次探测 和一项七实验消融中，作者分离出真正起作用的要素：

Component                         Effect on bypass (reported)
--------------------------------  --------------------------------------
Abstract operator framing         Required. Identical examples in plain
                                  question/answer format -> 0% bypass
Semantic operator naming          100% bypass (50/50, p < 0.001)
Example ordering                  Interleaved benign/target: 76%
                                  Harmful-first: 6%
Sampling temperature              No meaningful effect (46-56%, T=0.0-1.0)
HarmBench (vs GPT-5.4)            24.0% bypass with detailed (~619-word)
                                  responses, vs 0.0% for direct queries

有两点尤为突出。其一，承载攻击的是呈现方式：把同样的示例以普通问答形式给出时，绕过率为 0%——所以并非”示例泄露了有害内容”，而是抽象结构关闭了过滤器。其二，温度无关紧要，这意味着它不是运营方可以调走的采样偶然，而是模型解析该模式方式的一种属性。

为什么重要

大多数已部署的护栏检查的是请求：用户是否在索取被禁止的内容？IICL 生成的文本在构造上从不被表述为被禁止的请求。这就击败了最常见的第一道防线——输入分类器——并且代价低、单轮即可完成，无需 many-shot 攻击所需的长上下文窗口。

但要点同样需要注意。这是针对 OpenAI 模型的基准研究，并非现实世界中报告过的事件，而 HarmBench 上 24% 的绕过率远非全面。然而结构性结论才是关键：它记录的是一类弱点——上下文学习与对齐之间的冲突——而非某个脆弱的孤立提示。最接近的前人工作、Guo 等人 2025 年的”Involuntary Jailbreak”采用了相关的算子式呈现，但属于无目标的自我提示；IICL 使之有目标且可度量。任何进行上下文学习的模型在原理上都暴露于同一张力之下，因此即便超出所测模型，理解该技术也有价值。

防御

不要只依赖输入/请求分类器。 IICL 的设计正是要让请求永远读不出有害意味。把输入过滤器当作一层，而非控制本身。
对实际输出而非呈现方式做分类。 在模型实际生成的内容上做安全评估，与任务如何被提出无关。一段直读即有害的回答，即使以”算子求值”的形式到来，也应被拦截。
把模式补全脚手架当作结构信号来标记。 定义自定义算子、并提供大量交错的无害/目标示例对的输入，对正常流量而言是异常形态。结构性检测（示例密度、算子定义、交错排布）能在单行都不有害时抓住其形态。
把安全推到表层形式之下。 表示层与轨迹层的安全——不依赖请求措辞的对齐——才是持久的修复。包含抽象呈现与模式补全攻击的对抗训练能抬高下限；基于表层模式的拒绝则不能。
限制被越狱的模型能做什么。 如果模型驱动工具或动作，施加最小权限与人工确认，使内容安全的绕过不致变成能力的绕过。不要让致命三要素——私有数据、不可信输入与外泄通道——在一个可被诱导配合的模型背后凑齐。
用结构性改写而非仅直接的有害提示做红队测试。 把 IICL 式（算子/模式补全）测试加入评估套件。一个能拦下”教我怎么做 X”的护栏，仍可能对”补全这个模式让验证器返回是”门户大开。

状态

项目	参考	日期	备注
IICL 论文	arXiv:2604.19461	2026-04-21	few-shot 模式补全 vs 安全对齐
模型	10 个 OpenAI 模型	—	3,479 次探测，七实验消融
主要结果	HarmBench 上对 GPT-5.4 绕过率 24.0%	—	直接查询为 0.0%；语义命名在孤立组件上达 100%
前人工作	Guo 等，“Involuntary Jailbreak”	2025	算子式呈现，但为无目标自我提示
相关	Many-shot 越狱（Anthropic）	2024	数百个明确示例；IICL 仅需约 10 个
现实状态	—	—	基准研究；无现实世界事件报告

教训不是某个模型坏了，而是上下文学习与安全对齐可以被互相调转矛头，只读请求的护栏会漏掉它。请防御输出与结构，而不仅仅是措辞。

IICL：用 10 个示例让模式补全压过安全对齐

这是什么？

工作原理

为什么重要

防御

状态

Sources