IICL:用 10 个示例让模式补全压过安全对齐
2026 年 4 月的一篇 arXiv 论文把上下文学习反过来对付模型:约十个抽象算子示例,就能让 GPT-5.4 补全一个其内容过滤器从未察觉的有害模式。
这是什么?
2026 年 4 月 21 日,一篇题为 《Involuntary In-Context Learning: Exploiting Few-Shot Pattern Completion to Bypass Safety Alignment in GPT-5.4》(arXiv:2604.19461)的论文提出了 IICL——一类不与模型安全训练正面对抗、而是利用上下文学习赖以运作的同一机制来绕过它的越狱手法。该技术被收录进 Adversa AI 的 2026 年 6 月 GenAI 安全综述,本文也由此发现这一选题。
其核心是对齐未能化解的一种结构性张力:语言模型既被训练去拒绝有害请求,又被训练去补全其上下文中出现的模式。IICL 让后一种冲动去对抗前一种。攻击者不直接索取有害内容,而是把任务包装成一个抽象的模式补全练习;面向识别有害请求而调校的内容级安全过滤器,对这种看似无害的格式化任务从不触发。
这与 many-shot 越狱 不同——后者把数百个明确的有害问答对塞进长上下文。IICL 仅靠结构性改写、约十个示例即可奏效。
工作原理
已发表的方法定义了两个抽象算子——例如一个用于”产生”某个值、另一个用于”验证”它——并给出一小组示例,隐式地教会一种映射:无害输入对应有效结果。随后要求模型为一个新的输入产生输出,使得验证算子仍然有效。由于有害内容被包装成抽象的算子求值而非直接请求,安全分类器读到的表层看起来像格式化或符号推理任务,于是模式补全占据主导。
此处不复现任何算子、示例或 payload:这是对一项已发表且经同行评审方法的概述,而非可用的操作配方。
让该论文对防御有用的是其消融实验。在 对 10 个 OpenAI 模型进行的 3,479 次探测 和一项七实验消融中,作者分离出真正起作用的要素:
Component Effect on bypass (reported)
-------------------------------- --------------------------------------
Abstract operator framing Required. Identical examples in plain
question/answer format -> 0% bypass
Semantic operator naming 100% bypass (50/50, p < 0.001)
Example ordering Interleaved benign/target: 76%
Harmful-first: 6%
Sampling temperature No meaningful effect (46-56%, T=0.0-1.0)
HarmBench (vs GPT-5.4) 24.0% bypass with detailed (~619-word)
responses, vs 0.0% for direct queries
有两点尤为突出。其一,承载攻击的是呈现方式:把同样的示例以普通问答形式给出时,绕过率为 0%——所以并非”示例泄露了有害内容”,而是抽象结构关闭了过滤器。其二,温度无关紧要,这意味着它不是运营方可以调走的采样偶然,而是模型解析该模式方式的一种属性。
为什么重要
大多数已部署的护栏检查的是请求:用户是否在索取被禁止的内容?IICL 生成的文本在构造上从不被表述为被禁止的请求。这就击败了最常见的第一道防线——输入分类器——并且代价低、单轮即可完成,无需 many-shot 攻击所需的长上下文窗口。
但要点同样需要注意。这是针对 OpenAI 模型的基准研究,并非现实世界中报告过的事件,而 HarmBench 上 24% 的绕过率远非全面。然而结构性结论才是关键:它记录的是一类弱点——上下文学习与对齐之间的冲突——而非某个脆弱的孤立提示。最接近的前人工作、Guo 等人 2025 年的”Involuntary Jailbreak”采用了相关的算子式呈现,但属于无目标的自我提示;IICL 使之有目标且可度量。任何进行上下文学习的模型在原理上都暴露于同一张力之下,因此即便超出所测模型,理解该技术也有价值。
防御
-
不要只依赖输入/请求分类器。 IICL 的设计正是要让请求永远读不出有害意味。把输入过滤器当作一层,而非控制本身。
-
对实际输出而非呈现方式做分类。 在模型实际生成的内容上做安全评估,与任务如何被提出无关。一段直读即有害的回答,即使以”算子求值”的形式到来,也应被拦截。
-
把模式补全脚手架当作结构信号来标记。 定义自定义算子、并提供大量交错的无害/目标示例对的输入,对正常流量而言是异常形态。结构性检测(示例密度、算子定义、交错排布)能在单行都不有害时抓住其形态。
-
把安全推到表层形式之下。 表示层与轨迹层的安全——不依赖请求措辞的对齐——才是持久的修复。包含抽象呈现与模式补全攻击的对抗训练能抬高下限;基于表层模式的拒绝则不能。
-
限制被越狱的模型能做什么。 如果模型驱动工具或动作,施加最小权限与人工确认,使内容安全的绕过不致变成能力的绕过。不要让致命三要素——私有数据、不可信输入与外泄通道——在一个可被诱导配合的模型背后凑齐。
-
用结构性改写而非仅直接的有害提示做红队测试。 把 IICL 式(算子/模式补全)测试加入评估套件。一个能拦下”教我怎么做 X”的护栏,仍可能对”补全这个模式让验证器返回是”门户大开。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| IICL 论文 | arXiv:2604.19461 | 2026-04-21 | few-shot 模式补全 vs 安全对齐 |
| 模型 | 10 个 OpenAI 模型 | — | 3,479 次探测,七实验消融 |
| 主要结果 | HarmBench 上对 GPT-5.4 绕过率 24.0% | — | 直接查询为 0.0%;语义命名在孤立组件上达 100% |
| 前人工作 | Guo 等,“Involuntary Jailbreak” | 2025 | 算子式呈现,但为无目标自我提示 |
| 相关 | Many-shot 越狱(Anthropic) | 2024 | 数百个明确示例;IICL 仅需约 10 个 |
| 现实状态 | — | — | 基准研究;无现实世界事件报告 |
教训不是某个模型坏了,而是上下文学习与安全对齐可以被互相调转矛头,只读请求的护栏会漏掉它。请防御输出与结构,而不仅仅是措辞。