INDIRECT INJECTION MEDIUM NEW

IPI 竞技场：27.2 万次攻击，无一智能体模型幸免

Gray Swan 的间接提示注入竞技场由英国 AISI 与美国 CAISI 共同评审，对 13 个前沿模型发起逾 27.2 万次攻击。所有模型均被劫持——单一通用模板攻破了其中九个。

2026-06-02 // 7 min affects: claude-opus-4.5, claude-sonnet-4.5, claude-haiku-4.5, gemini-2.5-pro, gemini-3-pro, qwen-3-vl-235b

What is this?

2026 年 3 月，Gray Swan AI 在论文 “How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition”（arXiv 2603.15714，2026 年 3 月 16 日）中公布了其 间接提示注入（IPI）竞技场 的结果——这是迄今规模最大的公开智能体劫持竞赛。该竞赛由英国人工智能安全研究所（UK AISI）、美国人工智能标准与创新中心（US CAISI）以及包括 OpenAI、Anthropic 和 Meta 在内的前沿实验室共同设计。美方在 CAISI 研究博客（2026 年 3 月 23 日）中总结了要点。

在三周内，464 名参与者对 13 个前沿模型提交了超过 27.2 万次攻击尝试，覆盖 41 个智能体场景，奖金池为 4 万美元。红队成员成功实施了 8,648 次攻击。核心结论直截了当：在每一个受测模型上，都至少有一次攻击得逞。无一模型幸免。

How it works

间接提示注入不是越狱。用户没有做错任何事。攻击者把指令隐藏在智能体随后将读取的内容中——一封邮件、一个网页、一份文档、一个代码仓库——智能体执行这些指令，同时向用户返回一个看似正常的回复。

竞技场独特的设计选择是双重成功条件：只有当智能体（1）执行了有害动作并且（2）对用户隐瞒该动作时，攻击才算成功。以往大多数 IPI 研究只衡量前一半。要求”隐瞒”正是使结果具有实战意义之处——真正重要的攻击，正是用户永远不会察觉的那些。

场景涵盖工具型智能体（邮件助手、购物机器人、智能家居控制器）、编码智能体和计算机操作智能体。两项结构性发现尤为突出：

Finding                     What the data showed
--------------------------  ----------------------------------------------------
A universal template        One injection pattern worked across 21 of 41
                            scenarios and 9 models with minimal modification.
                            It frames the session as a simulated environment
                            with a fake "control panel," tricking the model into
                            treating injected text as system-level commands.

Transfer asymmetry          2,679 winning attacks were re-run against all 13
                            models. Attacks that broke the *most robust* model
                            (Claude Opus 4.5) transferred to the others at a
                            44-81% rate. Attacks that broke weaker models
                            barely transferred upward.

此处不复现任何载荷。上述通用模板的描述是 Gray Swan 已公开的概念性机制；可运行的评测套件以开源形式发布于 GraySwanAI/ipi_arena_os，供防御方测试自身系统。

Why it matters

三项结果应当改变您对智能体风险的思考方式。

第一，攻击成功率没有出现平台期。在整整三周里，模型被攻破的速率大致保持恒定。攻击者投入越多，得手越多——没有观察到模型会被”攻到无可再攻”的临界点。0.5% 的成功率听起来尚可接受，但要记得：一个已部署的智能体每天可能处理数千条不可信输入；在这种规模下，它就是一个可被利用的持续攻击面。

第二，能力与稳健性仅弱相关。Gemini 2.5 Pro 是受测中能力最强的模型之一，却也最脆弱（ASR 8.5%），而 Claude Opus 4.5 最稳健（0.5%）。模型家族与训练配方对稳健性的预测力远高于基准分数。稳健性确实会在同一家族内提升——Claude Haiku 4.5（1.3%）→ Sonnet 4.5（1.0%）→ Opus 4.5（0.5%），Gemini 3 Pro 也显著优于 2.5 Pro——但你无法从能力排行榜读出安全性。

第三，迁移的不对称性颠覆了通常的直觉。攻破弱模型的廉价小伎俩无法向上扩展；攻破最强模型的漏洞却会向下波及所有其他模型。投入精力攻破最难目标的攻击者，很可能免费拿下其余模型。

Defenses

论文自身的结论是：模型层面的稳健性训练必要但不充分——还需要系统层面与架构层面的防御。具体而言：

将不可信输入与控制流隔离。 把智能体摄入的任何内容（邮件、网页、文档、仓库、工具输出）都视为数据，绝不视为指令。无论智能体读到什么都约束其能够执行的操作的架构模式——能力范围限定、动作白名单、高影响步骤的人工审批——正对应竞技场记录的失效模式。这正是致命三要素与智能体二法则背后的道理。
不要只凭能力选择模型。 若为智能体部署选型，请将已公开的抗劫持稳健性数据与能力一并权衡。本次这样的对比基准之所以存在，正是为了让部署方看清每个选项的风险画像。
检测”隐瞒”，而不仅是”成功”。 您的红队与监控应当标记这样的情形：智能体执行了某个动作而呈现给用户的摘要却将其略去。独立于模型自然语言输出之外记录完整的动作轨迹，是让”真正重要的攻击”浮出水面的关键控制项。
用开放基准测试自己的技术栈。 评测套件（场景、评判系统、攻击样本）让您能测试自身的具体智能体配置以及加挂的任何防御，而不是依赖厂商标榜的数字。
假设存在通用且可迁移的攻击。 既然单一模板能攻破九个模型、且强模型漏洞会向下迁移，依赖单一模型特性的防御将难以为继。请在编排层构建能在更换模型后依然有效的防御。
预留基准刷新的余地。 Gray Swan 表示该基准将按季度更新，纳入新场景与新模型。请把智能体安全态势视为移动靶，在每次模型升级时重新评估，而非仅在上线时评估一次。

Status

Item	Reference	Date	Notes
IPI 竞技场论文（arXiv 2603.15714）	arXiv	2026-03-16	13 个模型、464 名参与者、27.2 万+次尝试、8,648 次成功
Gray Swan 分析	Gray Swan AI	2026-03-18	ASR 0.5%（Claude Opus 4.5）→ 8.5%（Gemini 2.5 Pro）
CAISI 研究博客	NIST	2026-03-23	美国政府总结；完整数据集已共享给 UK AISI 与 US CAISI
评测套件	GitHub（GraySwanAI/ipi_arena_os）	2026-03	开源场景 + 评判器；公开 95 个 Qwen-3-VL-235B 攻击
计划节奏	Gray Swan AI	季度	以新场景与最新模型循环开展竞赛

正确的解读不是”AI 智能体已经崩坏”，而是：“间接提示注入是当前指令遵循模型的一项尚未解决的结构性特性，它不会在攻击者压力下趋于平台期，唯一持久的防御都位于模型之上。” 如果您的架构假设模型会抵御被注入的指令，竞技场的数据告诉您：它不会。