系统:运行中
← 返回所有攻击
RESEARCH LOW NEW

SEC-bench Pro:AI 智能体真的能在 V8 和 SpiderMonkey 中挖洞吗?

2026 年 5 月 26 日的一项基准测试,衡量编码智能体在真实浏览器引擎中进行长链路漏洞发现的能力。前沿模型仍低于 40%——这一差距对攻防双方都很重要。

2026-06-15 // 5 min affects: coding-agents, claude-code, openai-codex, llm-security-agents

这是什么?

“SEC-bench Pro: Can Language Models Solve Long-Horizon Software Security Tasks?”(arXiv:2605.26548,2026 年 5 月 26 日)是一项基准测试,提出了每个安全团队如今都必须回答的问题:当你把一个编码智能体指向一个真实的大型代码库,并要求它找出一个漏洞时,它实际成功的频率有多高?在作者选取的两个目标——谷歌的 V8 和 Mozilla 的 SpiderMonkey JavaScript 引擎——上,答案是”比营销宣传所暗示的要少得多”。

该工作把最初的 SEC-bench(NeurIPS 2025)从短小、界定清晰的任务,扩展到了长链路任务:在浏览器级软件上进行多步骤挖洞,智能体必须在百万行代码库中游走、形成假设、构建概念验证并确认崩溃——既没有现成的模糊测试桩,也没有指向漏洞的描述。这种真实性正是关键所在。作者认为,先前的基准测试高估了模型,因为它们依赖针对目标的提示或简单的复现任务。

工作原理

SEC-bench Pro 由 183 个经过验证的漏洞实例化,涵盖内存安全、沙箱逃逸、JIT 与竞争条件类漏洞——这些类别对应着浏览器引擎实际被攻破的方式。仅 V8 子集就代表了超过 150 万美元的谷歌漏洞奖励计划累计赏金:这些不是玩具级漏洞,而是真实研究者为之获得丰厚报酬的缺陷。

每个任务都在浏览器级或运行时级的执行条件下运行,智能体按其能否端到端地发现并复现缺陷来评分。关键在于,该测试桩衡量的是长链路工作流,而非单一的检索或修补步骤——而这正是当前智能体往往崩溃之处。

论文报告的主要结果:

# Reported pass rates (higher = better), per the SEC-bench Pro paper
Open-weight baseline (Kimi-K2.6)      V8: 11.7%
Strongest single frontier config      V8: 32.0%   SpiderMonkey: 38.8%
ClaudeCode + Codex (two-agent union)  V8: 37.9%   SpiderMonkey: 48.8%

有两点尤为突出。首先,在单个引擎上,每一种配置都停留在 40% 以下——前沿编码智能体远非在困难目标上可靠的自主挖洞者。其次,ClaudeCode 与 Codex 解决的是互补的实例集合:二者的并集胜过单独任何一个(据作者所述,相对最佳单一脚手架,在 V8 上提升约 18%,在 SpiderMonkey 上约 26%)。不同的脚手架找到不同的漏洞。

为何重要

这是一篇能力衡量论文,而非攻击,但其数字对两个方向都有切割意义,攻防双方都应仔细阅读。

攻击者而言,结果令人清醒而非警惕:现成的单个智能体今天还无法自主挖出价值 150 万美元级别的 V8 漏洞。基于这一证据,围绕”AI 大规模发现零日漏洞”的炒作,对最困难的目标而言是超前于现实的——这与我们在AI 编写的零日漏洞指纹漏洞利用能力阶梯中所见一致。

防御者而言,互补性这一发现才是可操作的部分。如果你正用编码智能体进行主动漏洞发现,单一模型会漏掉漏洞;一组采用不同脚手架的智能体会显著提升覆盖率。而 40% 以下的天花板提醒我们:AI 挖洞是对人工审查的增强——而非取代。趋势同样重要:今天的天花板不是明天的天花板,帮助蓝队的同一种长链路能力也会帮助攻击方——这正是追踪此类诚实、无桩基准的价值所在。公平评估这些智能体的更广泛难题,正是评估安全智能体很难中所指出的问题。

防御

为采用 AI 进行安全工作的团队提供的具体启示:

  • 将 AI 挖洞视为增强,而非自主。 在困难目标上低于 40% 的成功率意味着,人类必须分诊、确认并对结果负责。把智能体的输出接入你现有的审查流程,而不是绕过它。
  • 运行集成,而非单一模型。 由于 ClaudeCode 与 Codex 找到互补的漏洞,部署多个不同脚手架的智能体比升级其中任何一个更能提升覆盖率。脚手架的多样性胜过单模型至上主义。
  • 在你自己的代码上做基准测试,且不带桩。 SEC-bench Pro 的教训是:提示和测试桩会抬高分数。在相信”自动检测漏洞”的承诺之前,用真实、无提示的任务来评估供应商和内部工具。
  • 为曲线而非快照做规划。 在设计检测、披露与补丁优先级时,应假设智能体能力会持续上升——把数周压缩到数小时的智能体红队的防御价值,对攻击者同样对称适用。

状态

项目
发表arXiv:2605.26548,2026 年 5 月 26 日
目标V8 与 SpiderMonkey(183 个经验证漏洞)
漏洞类别内存安全、沙箱、JIT、竞争条件
最佳单一配置32.0%(V8)/ 38.8%(SpiderMonkey)
双智能体并集37.9%(V8)/ 48.8%(SpiderMonkey)
性质能力基准——未发布漏洞利用

这是已发表、可同行评议的研究,并有公开的项目页面;它记录的是能力天花板,而非未修补的产品缺陷。值得记住的有用数字是:在真正困难且无桩的目标上,当今最好的 AI 智能体解决的漏洞远不及一半——而做得更好的途径在于更多样化的智能体加人工审查,而非盲目信任单一模型。

Sources