GOVERNANCE MEDIUM NEW

各家实验室对提示注入的度量互不相同

2026年6月1日对 Anthropic、OpenAI、Google 与 Meta 提示注入披露的对比显示：四家在指标、攻击面与「成功」定义上均不一致，其数字无法横向比较。

2026-06-05 // 5 min affects: claude-opus-4.8, chatgpt-atlas, gemini-3-pro, llama-guard

这是什么？

2026年6月1日，VentureBeat 发布了一份对比，比较了 Anthropic、OpenAI、Google 与 Meta 在2026年春季发布的提示注入（prompt injection）披露。其结论并非一种新攻击，而是一个度量问题。四家实验室中没有任何两家以相同方式度量提示注入。 它们测试的攻击面不同，对「成功」的定义不同，报告的技术栈层级也不同，因此采购方无法把它们的数字并排比较。

这一点很重要：提示注入已成为智能体系统的首要风险，而2026年是各家实验室首次主动公布失败率的一年。正如6月1日的另一篇报道所概括的，陷阱在于「在某家实验室的定义下注入率较低的模型，在另一家的测试设计下暴露面可能更高」。透明先于标准化到来。

工作原理

四份披露在三个维度上各不相同：测试了多少攻击面、在哪一层进行度量，以及什么算作一次成功的注入。

Anthropic 公开得最多：2026年5月28日发布了一份244页的 Claude Opus 4.8 系统卡，覆盖四个智能体攻击面（网页浏览、编写代码、智能体间协作、工具调用）。其浏览器智能体在防护启用前有31.5%的概率被劫持，启用防御后降至约1%（参见我们关于 Opus 4.8 浏览器智能体劫持率的说明）。
OpenAI 基本上只报告了一个攻击面——连接器（connectors）——并将该问题描述为无界，称对于 Atlas 这类浏览器智能体，提示注入很可能永远无法被彻底「解决」（Fortune，2025年12月）。
Google 将该议题移出模型卡，放入一份独立的安全框架，未公布按攻击面划分的成功率。
Meta 未发布闭源模型卡，且对其护栏（guardrails）而非模型本身进行评分。

Lab        Surfaces tested     Measurement layer      "Success rate" given?
---------  ------------------  ---------------------  ---------------------
Anthropic  4 (agentic)         pre- AND post-safeguard  Yes — per surface
OpenAI     1 (connectors)      product-level            Partial
Google     n/a in model card   separate framework       No per-surface rate
Meta       guardrail-only      guardrail layer          Grades guardrail, not model

结果是：某家的「31.5%」与另一家的「低注入率」并非同一计量单位。前者是缓解前的模型属性，另一个是缓解后的产品属性，第三个则是护栏评分。没有共同的对抗测试集，没有共享的威胁模型，也没有对「劫持」的统一定义。VentureBeat 的类比很贴切：这种差距类似于 CVE 体系出现之前的软件漏洞披露——有用的原始信号，却缺乏可互操作的模式来加以比较。

为什么重要

对于评估生产环境智能体的安全团队而言，实际后果是：不能依据公布的数字进行采购。 更低的宣传数字可能反映的是更窄的测试、更靠后的度量层级，或更宽松的定义——而非更安全的模型。直接比较只会得出错误的排名。

它还扭曲了激励。一家测试四个攻击面、同时公布缓解前后数字的实验室，在草率的解读下会显得「更差」，而只对护栏评分、报告一个漂亮数字的实验室反而更好看。奖励后者而非前者，会把整个行业推向更少而非更多的披露——这与防御者的需求恰好相反。这是治理问题，而非模型缺陷，也正是 NIST AI RMF、OWASP LLM Top 10、MITRE ATLAS 等框架旨在解决的事。截至本文撰写时，尚无监管机构强制要求智能体漏洞的统一报告格式；这四份披露均为自愿。

防御措施

度量差距无法被修补，但你可以不再被它误导。

切勿跨厂商比较公布的注入率。 将每个数字仅视为在其自身方法论内有效。缓解前31.5%的模型率与「较低」的护栏评分是不同单位——拒绝把它们相互排名。
索取方法论，而非数字。 在将智能体部署到敏感工作流之前，请询问：测试了哪些攻击面、该比率是缓解前还是缓解后、成功注入的定义，以及测试语料。若厂商不愿提供，请将该数字视为营销。
以你自己的攻击面为准进行归一化。 把每份披露映射到你实际暴露的攻击面——浏览器、代码执行、工具/连接器调用、智能体间。若你的部署只做浏览，则某模型的「连接器」数字毫无意义，反之亦然。
在产品层、缓解后做你自己的注入测试。 厂商的缓解前比率描述的是裸模型；你交付的是模型加上你的护栏、系统提示与工具权限收敛。用你掌控的固定语料在你自己的技术栈上重新度量，并在每次模型升级时重跑。
现在就在内部采用统一框架。 在行业标准落地之前，选定一套参考分类法（OWASP LLM01、MITRE ATLAS），要求所有厂商披露和内部测试都用它重新表述。即便来源彼此不可比，你也能得到一张可对齐的表。
按上限而非下限假设。 OpenAI 与独立研究者都将提示注入描述为一种持久的、或许无法根除的攻击类别。请按智能体终将被注入的情形来设计——最小权限、敏感操作需人工确认、避免致命三要素——而非信赖任何单一的公布比率。

状态

实验室	披露	日期	报告内容
Anthropic	Claude Opus 4.8 系统卡（244页）	2026-05-28	4个智能体攻击面；浏览器缓解前31.5%，缓解后约1%
OpenAI	连接器 / Atlas 指南	2026年春	一个攻击面；将注入描述为无法根除
Google	独立安全框架	2026年春	模型卡中无按攻击面的成功率
Meta	护栏评估	2026年春	对护栏评分，而非底层模型
VentureBeat	跨实验室对比	2026-06-01	无共同的指标、攻击面或成功定义

正确的结论不是「X 实验室最安全」，而是：行业公布提示注入数字的速度，快过它就这些数字含义达成一致的速度——在出现类似 CVE 的智能体披露统一模式之前，比较的工作落在采购方身上。索取方法论，以你自己的攻击面归一化，并在你自己的技术栈上度量。

各家实验室对提示注入的度量互不相同

这是什么？

工作原理

为什么重要

防御措施

状态

Sources