RESEARCH MEDIUM NEW

Proprietary Problems:思科对 15 个闭源前沿模型的成对评测显示,单轮安全分数遗漏了大部分多轮风险

2026 年 5 月 27 日,思科发布了对 OpenAI、Anthropic、Google、Amazon 与 xAI 旗下 15 个闭源旗舰模型的研究,多轮攻击成功率介于 7.89% 至 88.30% 之间,与单轮基线相比差距最高可达 55 个百分点。

2026-05-29 // 8 min affects: gpt-5.2, gpt-5.4, claude-opus-4.5, claude-opus-4.6, claude-sonnet-4.5, claude-sonnet-4.6, claude-haiku-4.5, gemini-3-pro, nova-lite, nova-micro, nova-2-lite, grok-4.1-fast

这是什么?

2026 年 5 月 27 日,思科 AI Defense 团队的 Nicholas Conley 与 Amy Chang 发布了《Proprietary Problems: No Frontier Model Is Multi-Turn Immune》及配套的完整报告 PDF。研究在统一的”单轮 vs 多轮”成对协议下评测了 15 个闭源旗舰模型:OpenAI(GPT-5.2 与 GPT-5.4 系列)、Anthropic(Claude Opus 4.5/4.6、Sonnet 4.5/4.6、Haiku 4.5)、Google(Gemini 3 Pro)、Amazon(Nova Lite、Nova Micro、Nova 2 Lite)与 xAI(Grok 4.1 Fast,推理与非推理两种配置)。它延续了思科 2025 年 11 月针对 8 个开源权重模型的前作《Death by a Thousand Prompts》。

研究的结论是结构性的:目前公开发布的单轮攻击成功率(ASR)数字——模型卡、安全报告与采购决策的依据——并不能可靠地反映一个会自适应的攻击者在多轮交互下能拿到的结果。本次评测中的所有模型在多轮攻击下都出现了非平凡比例的失败。

工作原理

测试台对每个模型发送同一份语料并保持条件一致:30 090 条单轮提示(每模型 2 006 条),以及分布于 1 456 段对话中的 6 986 次多轮攻击。攻击策略被归入五个家族,对应真实攻击者的迭代方式:Role-Play / 人设代入、上下文模糊 / 误导、拒绝改写 / 重定向、信息分解与重组,以及 Crescendo / 渐进升级。随后再用 Cisco Integrated AI Security and Safety Framework 的分类法对结果切片。

主要数据以成对方式呈现,每个模型可在两个维度上同时查看:

模型	单轮 ASR	多轮 ASR	差距
Grok 4.1 Fast(无推理)	高	88.30%	极大
Gemini 3 Pro	18.10%	73.35%	+55.25 pts
GPT-5.4	2.74%	24.68%	~9×
Claude 系列(Opus / Sonnet / Haiku)	2.19% – 3.64%	11.16% – 16.20%	~4-5×
Grok 4.1 Fast(开启推理)	—	43.47%	—
Nova 2 Lite	34.05%	7.89%	−34.74 pts

两个模式尤为突出。其一,模型在两种制度下的排序会发生变化:单轮最干净的模型在多轮中可能滑到中位,反之亦然。15 个模型中有 8 个的绝对跨制度差距超过 15 个百分点,且两个方向都存在。其二,部署期配置可使数值出现以十计的波动:开启 Grok 4.1 Fast 的推理模式后,其多轮 ASR 大约减半——这一幅度的”配置驱动的安全差异”,据作者所述,目前并未出现在任何公开 benchmark 或模型卡上。

失败集中在少数战术面。思科报告 Imposter AI 类程序的加权 ASR 为 37.50%,Soft Paraphrase 为 29.21%,System Prompts 为 27.69%。在内容侧,仇恨言论、脏话和专业建议位居前列。

为什么重要

这项研究将红队报告里近两年来反复出现的直觉正式化了:在单条提示下成立的对齐,未必能在迭代压力下成立。思科的数据与学术文献一致——尤其是 TrustNLP 2025 的结果,即五轮对话相对于单轮评测使脆弱性上升 71%;也与思科自己面向开源权重的早期研究一致,后者中多轮 ASR 是单轮基线的 2× 至 10×,在 Mistral Large-2 上达到 92.78%。综合来看,多轮脆弱性更像是当下前沿模型的一种结构性属性,而非某一种对齐哲学或权重发布策略的产物。

对采购、治理与保证而言,实务后果是:一张写着 2.74% 单轮 ASR 的模型卡,与一个在多轮下守住 24.68% ASR 的模型并不是同一件产品——没有成对数据,二者在大多数公开评估中无法区分。NIST 的 AI 风险管理框架、NIST Cyber AI Profile 草案(IR 8596)以及欧盟《人工智能法案》第 15 条都要求做对抗性鲁棒性测试,但目前都未就交互制度、按策略分解或切片样本规模标注作出明确规定,而思科的数据表明这些细节都很必要。

防御

思科把研究结果翻译成三条采购可用的”仪式”,无需新工具:

每次模型发布同时公布按策略家族的 ASR,而不仅是总分。聚合后的多轮 ASR 会掩盖按策略可操作的差异。
按 top-3 程序与 top-3 内容类型门控部署(Imposter AI、Soft Paraphrase、System Prompts;仇恨言论、脏话、专业建议),回归阈值设为 3 个百分点,且需高于本次队列中最大的单轮 95% 置信区间半宽。
任何跨制度绝对差距 > 15 个百分点的模型转人工复核。在本次队列中,该规则可触发 15 个模型中的 8 个,包括 GPT-5.4、Gemini 3 Pro、Grok 的两种配置以及三个 Nova 变体。

在系统层面,作者的结论是:既然没有任何基础模型在迭代制度下安全,那么安全边界就必须移到模型之外——运行时护栏、监控、应用层策略、对后续轮次的意图与人设分类器,以及明确针对 Crescendo 式升级的红队演练,而不仅是孤立的单条提示。

状态

这是行业研究,而非 CVE,无补丁可打。可执行的信号在于评估与采购流程:今后供应商向买家提交的任何 benchmark,都应被默认要求附带”单轮 + 多轮”成对数字以及按策略家族的分解。思科的 LLM Security Leaderboard 即按此格式发布前沿模型的对抗信号;Proprietary Problems 的完整 PDF 包含每模型置信区间与上文提及的策略 × 模型热力图。

Proprietary Problems:思科对 15 个闭源前沿模型的成对评测显示,单轮安全分数遗漏了大部分多轮风险

这是什么?

工作原理

为什么重要

防御

状态

Sources