RESEARCH LOW NEW

SEC-bench Pro：AI 智能体真的能在 V8 和 SpiderMonkey 中挖洞吗？

2026 年 5 月 26 日的一项基准测试，衡量编码智能体在真实浏览器引擎中进行长链路漏洞发现的能力。前沿模型仍低于 40%——这一差距对攻防双方都很重要。

2026-06-15 // 5 min affects: coding-agents, claude-code, openai-codex, llm-security-agents

这是什么？

“SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?”（arXiv:2605.26548，2026 年 5 月 26 日）是一项基准测试，提出了每个安全团队如今都必须回答的问题：当你把一个编码智能体指向一个真实的大型代码库，并要求它找出一个漏洞时，它实际成功的频率有多高？在作者选取的两个目标——谷歌的 V8 和 Mozilla 的 SpiderMonkey JavaScript 引擎——上，答案是”比营销宣传所暗示的要少得多”。

该工作把最初的 SEC-bench（NeurIPS 2025）从短小、界定清晰的任务，扩展到了长链路任务：在浏览器级软件上进行多步骤挖洞，智能体必须在百万行代码库中游走、形成假设、构建概念验证并确认崩溃——既没有现成的模糊测试桩，也没有指向漏洞的描述。这种真实性正是关键所在。作者认为，先前的基准测试高估了模型，因为它们依赖针对目标的提示或简单的复现任务。

工作原理

SEC-bench Pro 由 183 个经过验证的漏洞实例化，涵盖内存安全、沙箱逃逸、JIT 与竞争条件类漏洞——这些类别对应着浏览器引擎实际被攻破的方式。仅 V8 子集就代表了超过 150 万美元的谷歌漏洞奖励计划累计赏金：这些不是玩具级漏洞，而是真实研究者为之获得丰厚报酬的缺陷。

每个任务都在浏览器级或运行时级的执行条件下运行，智能体按其能否端到端地发现并复现缺陷来评分。关键在于，该测试桩衡量的是长链路工作流，而非单一的检索或修补步骤——而这正是当前智能体往往崩溃之处。

论文报告的主要结果：

# Reported pass rates (higher = better), per the SEC-bench Pro paper
Open-weight baseline (Kimi-K2.6)      V8: 11.7%
Strongest single frontier config      V8: 32.0%   SpiderMonkey: 38.8%
ClaudeCode + Codex (two-agent union)  V8: 37.9%   SpiderMonkey: 48.8%

有两点尤为突出。首先，在单个引擎上，每一种配置都停留在 40% 以下——前沿编码智能体远非在困难目标上可靠的自主挖洞者。其次，ClaudeCode 与 Codex 解决的是互补的实例集合：二者的并集胜过单独任何一个（据作者所述，相对最佳单一脚手架，在 V8 上提升约 18%，在 SpiderMonkey 上约 26%）。不同的脚手架找到不同的漏洞。

为何重要

这是一篇能力衡量论文，而非攻击，但其数字对两个方向都有切割意义，攻防双方都应仔细阅读。

对攻击者而言，结果令人清醒而非警惕：现成的单个智能体今天还无法自主挖出价值 150 万美元级别的 V8 漏洞。基于这一证据，围绕”AI 大规模发现零日漏洞”的炒作，对最困难的目标而言是超前于现实的——这与我们在AI 编写的零日漏洞指纹和漏洞利用能力阶梯中所见一致。

对防御者而言，互补性这一发现才是可操作的部分。如果你正用编码智能体进行主动漏洞发现，单一模型会漏掉漏洞；一组采用不同脚手架的智能体会显著提升覆盖率。而 40% 以下的天花板提醒我们：AI 挖洞是对人工审查的增强——而非取代。趋势同样重要：今天的天花板不是明天的天花板，帮助蓝队的同一种长链路能力也会帮助攻击方——这正是追踪此类诚实、无桩基准的价值所在。公平评估这些智能体的更广泛难题，正是评估安全智能体很难中所指出的问题。

防御

为采用 AI 进行安全工作的团队提供的具体启示：

将 AI 挖洞视为增强，而非自主。 在困难目标上低于 40% 的成功率意味着，人类必须分诊、确认并对结果负责。把智能体的输出接入你现有的审查流程，而不是绕过它。
运行集成，而非单一模型。 由于 ClaudeCode 与 Codex 找到互补的漏洞，部署多个不同脚手架的智能体比升级其中任何一个更能提升覆盖率。脚手架的多样性胜过单模型至上主义。
在你自己的代码上做基准测试，且不带桩。 SEC-bench Pro 的教训是：提示和测试桩会抬高分数。在相信”自动检测漏洞”的承诺之前，用真实、无提示的任务来评估供应商和内部工具。
为曲线而非快照做规划。 在设计检测、披露与补丁优先级时，应假设智能体能力会持续上升——把数周压缩到数小时的智能体红队的防御价值，对攻击者同样对称适用。

状态

项目	值
发表	arXiv:2605.26548，2026 年 5 月 26 日
目标	V8 与 SpiderMonkey（183 个经验证漏洞）
漏洞类别	内存安全、沙箱、JIT、竞争条件
最佳单一配置	32.0%（V8）/ 38.8%（SpiderMonkey）
双智能体并集	37.9%（V8）/ 48.8%（SpiderMonkey）
性质	能力基准——未发布漏洞利用

这是已发表、可同行评议的研究，并有公开的项目页面；它记录的是能力天花板，而非未修补的产品缺陷。值得记住的有用数字是：在真正困难且无桩的目标上，当今最好的 AI 智能体解决的漏洞远不及一半——而做得更好的途径在于更多样化的智能体加人工审查，而非盲目信任单一模型。

SEC-bench Pro：AI 智能体真的能在 V8 和 SpiderMonkey 中挖洞吗？

这是什么？

工作原理

为何重要

防御

状态

Sources