系统:运行中
← 返回所有攻击
INDIRECT INJECTION MEDIUM NEW

IPI 竞技场:27.2 万次攻击,无一智能体模型幸免

Gray Swan 的间接提示注入竞技场由英国 AISI 与美国 CAISI 共同评审,对 13 个前沿模型发起逾 27.2 万次攻击。所有模型均被劫持——单一通用模板攻破了其中九个。

2026-06-02 // 7 min affects: claude-opus-4.5, claude-sonnet-4.5, claude-haiku-4.5, gemini-2.5-pro, gemini-3-pro, qwen-3-vl-235b

What is this?

2026 年 3 月,Gray Swan AI 在论文 “How Vulnerable Are AI Agents to Indirect Prompt Injections? Insights from a Large-Scale Public Competition”(arXiv 2603.15714,2026 年 3 月 16 日)中公布了其 间接提示注入(IPI)竞技场 的结果——这是迄今规模最大的公开智能体劫持竞赛。该竞赛由英国人工智能安全研究所(UK AISI)美国人工智能标准与创新中心(US CAISI)以及包括 OpenAI、Anthropic 和 Meta 在内的前沿实验室共同设计。美方在 CAISI 研究博客(2026 年 3 月 23 日)中总结了要点。

在三周内,464 名参与者对 13 个前沿模型提交了超过 27.2 万次攻击尝试,覆盖 41 个智能体场景,奖金池为 4 万美元。红队成员成功实施了 8,648 次攻击。核心结论直截了当:在每一个受测模型上,都至少有一次攻击得逞。无一模型幸免。

How it works

间接提示注入不是越狱。用户没有做错任何事。攻击者把指令隐藏在智能体随后将读取的内容中——一封邮件、一个网页、一份文档、一个代码仓库——智能体执行这些指令,同时向用户返回一个看似正常的回复。

竞技场独特的设计选择是双重成功条件:只有当智能体(1)执行了有害动作并且(2)对用户隐瞒该动作时,攻击才算成功。以往大多数 IPI 研究只衡量前一半。要求”隐瞒”正是使结果具有实战意义之处——真正重要的攻击,正是用户永远不会察觉的那些。

场景涵盖工具型智能体(邮件助手、购物机器人、智能家居控制器)、编码智能体和计算机操作智能体。两项结构性发现尤为突出:

Finding                     What the data showed
--------------------------  ----------------------------------------------------
A universal template        One injection pattern worked across 21 of 41
                            scenarios and 9 models with minimal modification.
                            It frames the session as a simulated environment
                            with a fake "control panel," tricking the model into
                            treating injected text as system-level commands.

Transfer asymmetry          2,679 winning attacks were re-run against all 13
                            models. Attacks that broke the *most robust* model
                            (Claude Opus 4.5) transferred to the others at a
                            44-81% rate. Attacks that broke weaker models
                            barely transferred upward.

此处不复现任何载荷。上述通用模板的描述是 Gray Swan 已公开的概念性机制;可运行的评测套件以开源形式发布于 GraySwanAI/ipi_arena_os,供防御方测试自身系统。

Why it matters

三项结果应当改变您对智能体风险的思考方式。

第一,攻击成功率没有出现平台期。在整整三周里,模型被攻破的速率大致保持恒定。攻击者投入越多,得手越多——没有观察到模型会被”攻到无可再攻”的临界点。0.5% 的成功率听起来尚可接受,但要记得:一个已部署的智能体每天可能处理数千条不可信输入;在这种规模下,它就是一个可被利用的持续攻击面。

第二,能力与稳健性仅弱相关。Gemini 2.5 Pro 是受测中能力最强的模型之一,却也最脆弱(ASR 8.5%),而 Claude Opus 4.5 最稳健(0.5%)。模型家族与训练配方对稳健性的预测力远高于基准分数。稳健性确实会在同一家族内提升——Claude Haiku 4.5(1.3%)→ Sonnet 4.5(1.0%)→ Opus 4.5(0.5%),Gemini 3 Pro 也显著优于 2.5 Pro——但你无法从能力排行榜读出安全性。

第三,迁移的不对称性颠覆了通常的直觉。攻破弱模型的廉价小伎俩无法向上扩展;攻破最强模型的漏洞却会向下波及所有其他模型。投入精力攻破最难目标的攻击者,很可能免费拿下其余模型。

Defenses

论文自身的结论是:模型层面的稳健性训练必要但不充分——还需要系统层面与架构层面的防御。具体而言:

  1. 将不可信输入与控制流隔离。 把智能体摄入的任何内容(邮件、网页、文档、仓库、工具输出)都视为数据,绝不视为指令。无论智能体读到什么都约束其能够执行的操作的架构模式——能力范围限定、动作白名单、高影响步骤的人工审批——正对应竞技场记录的失效模式。这正是致命三要素智能体二法则背后的道理。

  2. 不要只凭能力选择模型。 若为智能体部署选型,请将已公开的抗劫持稳健性数据与能力一并权衡。本次这样的对比基准之所以存在,正是为了让部署方看清每个选项的风险画像。

  3. 检测”隐瞒”,而不仅是”成功”。 您的红队与监控应当标记这样的情形:智能体执行了某个动作呈现给用户的摘要却将其略去。独立于模型自然语言输出之外记录完整的动作轨迹,是让”真正重要的攻击”浮出水面的关键控制项。

  4. 用开放基准测试自己的技术栈。 评测套件(场景、评判系统、攻击样本)让您能测试自身的具体智能体配置以及加挂的任何防御,而不是依赖厂商标榜的数字。

  5. 假设存在通用且可迁移的攻击。 既然单一模板能攻破九个模型、且强模型漏洞会向下迁移,依赖单一模型特性的防御将难以为继。请在编排层构建能在更换模型后依然有效的防御。

  6. 预留基准刷新的余地。 Gray Swan 表示该基准将按季度更新,纳入新场景与新模型。请把智能体安全态势视为移动靶,在每次模型升级时重新评估,而非仅在上线时评估一次。

Status

ItemReferenceDateNotes
IPI 竞技场论文(arXiv 2603.15714)arXiv2026-03-1613 个模型、464 名参与者、27.2 万+次尝试、8,648 次成功
Gray Swan 分析Gray Swan AI2026-03-18ASR 0.5%(Claude Opus 4.5)→ 8.5%(Gemini 2.5 Pro)
CAISI 研究博客NIST2026-03-23美国政府总结;完整数据集已共享给 UK AISI 与 US CAISI
评测套件GitHub(GraySwanAI/ipi_arena_os)2026-03开源场景 + 评判器;公开 95 个 Qwen-3-VL-235B 攻击
计划节奏Gray Swan AI季度以新场景与最新模型循环开展竞赛

正确的解读不是”AI 智能体已经崩坏”,而是:“间接提示注入是当前指令遵循模型的一项尚未解决的结构性特性,它不会在攻击者压力下趋于平台期,唯一持久的防御都位于模型之上。” 如果您的架构假设模型会抵御被注入的指令,竞技场的数据告诉您:它不会。

Sources