RESEARCH LOW NEW

Cyber Defense Benchmark：前沿大模型在威胁狩猎中折戟

2026 年 4 月的一项基准测试将五个前沿模型投入原始 Windows 日志并要求其狩猎。最优者仅找出 3.8% 的恶意事件——无一达到无人监督 SOC 的门槛。

2026-06-15 // 5 min affects: claude-opus-4.6, gpt-5, gemini-3.1-pro, kimi-k2.5, gemini-3-flash

这是什么？

安全工具领域反复出现一种说法：自主 SOC 分析师——把一个大模型智能体指向你的日志，让它自行狩猎。一项新基准测试正面检验了这一承诺，结果是干脆利落的失败。

2026 年 4 月 21 日（最后修订于 4 月 23 日），Alankrit Chona、Igor Kozlov 与 Ambuj Kumar 发布了 Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps（arXiv:2604.19533）。该工作衡量大模型智能体完成 SOC 核心任务——威胁狩猎——的能力：给定一个原始 Windows 事件日志数据库，没有引导性问题、没有提示，找出恶意事件的精确时间戳。

这比大模型已经擅长的、精心准备的安全选择题要难得多。这里没有问题可答，只有一片”草垛”和”找出针”的指令。在五个前沿模型中，所有模型都严重失败。

工作原理

该基准将来自开源语料库 OTRF Security-Datasets 的 106 个真实攻击流程——涵盖 86 项 MITRE ATT&CK 子技术、横跨 12 个战术——封装进一个强化学习环境。

据论文所述，每个回合的运行方式如下：

1. 一个确定性的攻击战役模拟器重放真实攻击，
   对时间戳进行平移、对实体名进行混淆，
   使智能体无法记忆公开的原始记录。
2. 智能体获得一个内存中的 SQLite 数据库，
   含 75,000 至 135,000 条日志记录（大多为良性背景噪声）。
3. 智能体迭代提交 SQL 查询进行调查，
   然后显式标记其认为恶意的时间戳。
4. 标记按 CTF 方式评分，对照由 Sigma 检测规则
   推导出的真值。

以 Sigma 规则——一种与 SIEM 无关、映射到 ATT&CK 的检测格式——作为真值，意味着智能体是对照一名合格的检测工程师真正会标记的内容来评分，而非对照人造答案。

受测模型为 Claude Opus 4.6、GPT-5、Gemini 3.1 Pro、Kimi K2.5 与 Gemini 3 Flash，运行于覆盖 106 个流程中 105 个的 26 场战役。

为何重要

数字触目惊心。最优模型 Claude Opus 4.6 平均仅对 3.8% 的恶意事件提交了正确标记。任何模型的任何一次运行都从未在单个回合中找全所有标记。

作者定义了一个合理的部署门槛：在每个 ATT&CK 战术上召回率 ≥ 50%——即让智能体无监督狩猎前的最低要求。无一模型通过。领先者仅在 13 个战术中的 5 个上达标；其余四个模型为零。

真正值得关注的差距，是这一结果与厂商所引用的精致基准之间的差距。大模型在富含提示的安全选择题上看似强劲；把同样的模型投入嘈杂日志中的开放式、基于证据的狩猎，性能便急剧崩塌。此处衡量的能力——耐心地、迭代地在大型语料中穿梭，将微弱信号拼接为确凿发现——正是 SOC 分析师所做的，也正是准备好的基准无法捕捉的。

对于评估”AI 威胁狩猎”产品的人而言，这是一条具体理由：要求在开放式任务上评估，而非排行榜式的小测验。

防御

这是一项关于防御成熟度的发现，因此”防御”在于：如何在 SOC 中部署大模型而不过度信任它们。

不要无监督运行自主狩猎。 依此证据，独自寻找恶意事件的大模型智能体将漏掉绝大多数。对任何决定响应与否的狩猎，保留人类分析师在环。
在大模型真正擅长之处使用它们。 总结告警、起草查询、解释 Sigma 规则、对已检出事件进行分类——这些狭窄而有界的任务——与开放式发现截然不同。将工具限定在这些用途上。
用你自己的开放式任务做评估。 厂商在选择题上宣称的准确率几乎说明不了狩猎能力。重放真实攻击数据（OTRF 语料库是公开的），并在信任智能体前按 ATT&CK 战术测量召回率。
以召回率而非精确率作为安全指标。 漏掉 96% 事件的猎手即便所标记的全部正确，也是危险的。衡量它没能找到的东西。
在底层叠加确定性检测。 Sigma 规则与基于签名的检测在构造上即可捕获这些事件。大模型智能体应位于可靠检测工程之上，而非取而代之。

这些要点强化了本季更广泛的告诫：评测安全智能体很难，且单一数字会掩盖你实际运行的工作点。

状态

项目	参考	日期	备注
Cyber Defense Benchmark	arXiv:2604.19533	2026-04-21 (v1) → 2026-04-23 (v3)	106 个流程，86 项 ATT&CK 子技术，12 个战术
最佳结果	Claude Opus 4.6	2026	标记 3.8% 的事件；通过 13 个战术中的 5 个
其他模型	GPT-5、Gemini 3.1 Pro、Kimi K2.5、Gemini 3 Flash	2026	在零个战术上越过门槛
真值	OTRF Security-Datasets + Sigma 规则	持续	公开语料；结果可复现

要点不是大模型在 SOC 中毫无用处，而是开放式威胁狩猎尚不是一项可以放手交付的任务。信任它之前，先去衡量它。

Cyber Defense Benchmark：前沿大模型在威胁狩猎中折戟

这是什么？

工作原理

为何重要

防御

状态

Sources