系统:运行中
← 返回所有攻击
GOVERNANCE MEDIUM NEW

各家实验室对提示注入的度量互不相同

2026年6月1日对 Anthropic、OpenAI、Google 与 Meta 提示注入披露的对比显示:四家在指标、攻击面与「成功」定义上均不一致,其数字无法横向比较。

2026-06-05 // 5 min affects: claude-opus-4.8, chatgpt-atlas, gemini-3-pro, llama-guard

这是什么?

2026年6月1日VentureBeat 发布了一份对比,比较了 Anthropic、OpenAI、Google 与 Meta 在2026年春季发布的提示注入(prompt injection)披露。其结论并非一种新攻击,而是一个度量问题。四家实验室中没有任何两家以相同方式度量提示注入。 它们测试的攻击面不同,对「成功」的定义不同,报告的技术栈层级也不同,因此采购方无法把它们的数字并排比较。

这一点很重要:提示注入已成为智能体系统的首要风险,而2026年是各家实验室首次主动公布失败率的一年。正如6月1日的另一篇报道所概括的,陷阱在于「在某家实验室的定义下注入率较低的模型,在另一家的测试设计下暴露面可能更高」。透明先于标准化到来。

工作原理

四份披露在三个维度上各不相同:测试了多少攻击面、在哪一层进行度量,以及什么算作一次成功的注入。

  • Anthropic 公开得最多:2026年5月28日发布了一份244页的 Claude Opus 4.8 系统卡,覆盖四个智能体攻击面(网页浏览、编写代码、智能体间协作、工具调用)。其浏览器智能体在防护启用前有31.5%的概率被劫持,启用防御后降至约1%(参见我们关于 Opus 4.8 浏览器智能体劫持率 的说明)。
  • OpenAI 基本上只报告了一个攻击面——连接器(connectors)——并将该问题描述为无界,称对于 Atlas 这类浏览器智能体,提示注入很可能永远无法被彻底「解决」Fortune,2025年12月)。
  • Google 将该议题移出模型卡,放入一份独立的安全框架,未公布按攻击面划分的成功率。
  • Meta 未发布闭源模型卡,且对其护栏(guardrails)而非模型本身进行评分。
Lab        Surfaces tested     Measurement layer      "Success rate" given?
---------  ------------------  ---------------------  ---------------------
Anthropic  4 (agentic)         pre- AND post-safeguard  Yes — per surface
OpenAI     1 (connectors)      product-level            Partial
Google     n/a in model card   separate framework       No per-surface rate
Meta       guardrail-only      guardrail layer          Grades guardrail, not model

结果是:某家的「31.5%」与另一家的「低注入率」并非同一计量单位。前者是缓解前的模型属性,另一个是缓解后的产品属性,第三个则是护栏评分。没有共同的对抗测试集,没有共享的威胁模型,也没有对「劫持」的统一定义。VentureBeat 的类比很贴切:这种差距类似于 CVE 体系出现之前的软件漏洞披露——有用的原始信号,却缺乏可互操作的模式来加以比较。

为什么重要

对于评估生产环境智能体的安全团队而言,实际后果是:不能依据公布的数字进行采购。 更低的宣传数字可能反映的是更窄的测试、更靠后的度量层级,或更宽松的定义——而非更安全的模型。直接比较只会得出错误的排名。

它还扭曲了激励。一家测试四个攻击面、同时公布缓解前后数字的实验室,在草率的解读下会显得「更差」,而只对护栏评分、报告一个漂亮数字的实验室反而更好看。奖励后者而非前者,会把整个行业推向更少而非更多的披露——这与防御者的需求恰好相反。这是治理问题,而非模型缺陷,也正是 NIST AI RMF、OWASP LLM Top 10、MITRE ATLAS 等框架旨在解决的事。截至本文撰写时,尚无监管机构强制要求智能体漏洞的统一报告格式;这四份披露均为自愿。

防御措施

度量差距无法被修补,但你可以不再被它误导。

  1. 切勿跨厂商比较公布的注入率。 将每个数字仅视为在其自身方法论内有效。缓解前31.5%的模型率与「较低」的护栏评分是不同单位——拒绝把它们相互排名。
  2. 索取方法论,而非数字。 在将智能体部署到敏感工作流之前,请询问:测试了哪些攻击面、该比率是缓解前还是缓解后、成功注入的定义,以及测试语料。若厂商不愿提供,请将该数字视为营销。
  3. 以你自己的攻击面为准进行归一化。 把每份披露映射到实际暴露的攻击面——浏览器、代码执行、工具/连接器调用、智能体间。若你的部署只做浏览,则某模型的「连接器」数字毫无意义,反之亦然。
  4. 在产品层、缓解后做你自己的注入测试。 厂商的缓解前比率描述的是裸模型;你交付的是模型加上你的护栏、系统提示与工具权限收敛。用你掌控的固定语料在你自己的技术栈上重新度量,并在每次模型升级时重跑。
  5. 现在就在内部采用统一框架。 在行业标准落地之前,选定一套参考分类法(OWASP LLM01、MITRE ATLAS),要求所有厂商披露和内部测试都用它重新表述。即便来源彼此不可比,你也能得到一张可对齐的表。
  6. 按上限而非下限假设。 OpenAI 与独立研究者都将提示注入描述为一种持久的、或许无法根除的攻击类别。请按智能体终将被注入的情形来设计——最小权限、敏感操作需人工确认、避免致命三要素——而非信赖任何单一的公布比率。

状态

实验室披露日期报告内容
AnthropicClaude Opus 4.8 系统卡(244页)2026-05-284个智能体攻击面;浏览器缓解前31.5%,缓解后约1%
OpenAI连接器 / Atlas 指南2026年春一个攻击面;将注入描述为无法根除
Google独立安全框架2026年春模型卡中无按攻击面的成功率
Meta护栏评估2026年春对护栏评分,而非底层模型
VentureBeat跨实验室对比2026-06-01无共同的指标、攻击面或成功定义

正确的结论不是「X 实验室最安全」,而是:行业公布提示注入数字的速度,快过它就这些数字含义达成一致的速度——在出现类似 CVE 的智能体披露统一模式之前,比较的工作落在采购方身上。索取方法论,以你自己的攻击面归一化,并在你自己的技术栈上度量。

Sources