FORGE:把 CVE 变成漏洞利用与检测规则的多智能体流水线
Dynatrace 在 2026 年 6 月 2 日的论文用五个 LLM 智能体把一个 CVE 从公告文本一路推进到利用尝试和检测规则,并按四级入侵阶梯打分。
这是什么?
2026 年 6 月 2 日,Dynatrace 研究员 Farooq Shaikh 发表了 FORGE: Multi-Agent Graduated Exploitation and Detection Engineering(arXiv:2606.03453),该论文被 ARES 2026 大会的 AgentCy 研讨会接收。论文针对的是一个工作流问题,而非单一漏洞:已披露 CVE 的数量如今已远超任何组织的评估能力,而本应协作的三个社区——概念验证(PoC)生成、漏洞优先级排序、检测规则工程——大多各自为政。
FORGE 试图把这三个环节接入一条统一的 LLM 智能体流水线。对防御者而言,有意思的不是智能体能写出利用代码,而是同一次运行还会产出一条检测规则,以及一个关于利用实际深度的、分级且经过审计的判定。完整代码、按 CVE 的结果以及预言机的审计判定均以 Apache 2.0 许可证发布在 github.com/dynatrace-oss/forge。
工作原理
FORGE 以固定流水线运行五个专职智能体,每个智能体消费前一个的输出:
- Intel — 摄取某个 CVE 的元数据(公告文本、受影响组件),并抽取后续阶段所需的结构化事实。
- Generator — 构建一个目标化的脆弱应用:一个最小化、自包含、能复现该缺陷的应用,使利用过程针对专门搭建的实验靶标运行,而不是针对任何人的生产系统。
- Planner — 把情报转化为利用策略。
- Exploit — 针对生成的靶标进行受引导的多轮利用尝试。
- Detector — 根据利用过程的产物,编写一条检测规则。
新颖之处在于论文所称的分级利用:不再是「成或败」的二元判断,而是由一个以 LLM 为主的预言机按四级分类法对每次尝试打分,从 L0(无利用证据) 到 L3(完全攻陷)。对成功的深度而非仅仅成败进行评分,正是流水线得以排序优先级的关键:一个智能体能在忠实复现上推进到 L3 的 CVE,与一个止步于 L1 的 CVE,是截然不同的运营信号。由于利用过程只针对 Generator 的合成靶标运行,这一闭环在不触碰生产软件的前提下产出证据与检测规则。
为什么重要
FORGE 与近期关于「捕猎或分诊漏洞的智能体」的工作属于同一新兴类别——长周期漏洞挖掘基准、以规格为先的漏洞检测,以及通用智能体仍然不敌确定性 SAST 工具这一冷静的结论。FORGE 增加的,是从漏洞到可部署检测之间的那座桥,并附带一个分级的置信信号。
这座桥是双向的。对 SOC 来说,从「新 CVE 刚刚落地」到「一条候选检测规则外加一个可供测试的复现」之间的自动化通路确实有用,而把可利用性评估从数周压缩到数小时,也与智能体红队工作的报告相呼应。但同样的架构也是攻击者可以照搬的模板:一条读取公告、逐步推进到可用利用的流水线,正是威胁建模论文所预言的攻击工业化。开源发布同时降低了防御者与对手的门槛——这是任何公开发布的攻击性工具都无法回避的固有张力,也正因如此,评估与预言机审计的透明度,与利用结果同样重要。
防御
对于把 FORGE 当作防御者而非工具构建者来阅读的团队:
- 把检测输出当作草稿,而非可直接部署的规则。 LLM 生成的检测只反映了一次合成复现;在让它把守任何关卡之前,先用真实遥测数据验证并针对误报进行调优,这与对待 LLM 扫描器输出应有的审慎相同。
- 不要盲目相信评分。 L0–L3 的判定来自一个以 LLM 为主的预言机;论文公开其审计判定,正是为了便于核查。用这个分级分数去排序人工复核,而非取代它。
- 假设攻击者拥有同样的流水线。 如果你技术栈中的某个 CVE 属于 FORGE 式智能体能在忠实克隆上推进到 L3 的那一类,就应相应调整补丁的紧迫性——过去为你争取时间的评估窗口正在收窄。
- 让生成环节保持在沙箱中。 该设计的安全属性在于利用过程只针对临时搭建的靶标运行。任何对此模式的内部改造都必须保留这种隔离,绝不能把 Exploit 智能体指向存活或共享的基础设施。
- 用分级结果而非仅仅工单数量来驱动优先级排序。 四级分类法的意义在于把「理论上可利用」与「可被证明利用」区分开;用它来为修复排序。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| 论文 | arXiv:2606.03453 | 2026-06-02 | AgentCy 研讨会,ARES 2026 |
| 流水线 | Intel → Generator → Planner → Exploit → Detector | 2026-06-02 | 五个智能体,顺序固定 |
| 评分 | L0(无证据)→ L3(完全攻陷) | 2026-06-02 | 以 LLM 为主的预言机,经审计 |
| 代码 | github.com/dynatrace-oss/forge | 2026-06-02 | Apache 2.0,附带工件仓库 |
要点:FORGE 与其说是一种新攻击,不如说是一个证明——CVE → 利用 → 检测这一闭环,可以用当下的 LLM 智能体端到端地自动化,并在过程中给出置信度分级。对防御者而言,其实用价值是更快、更有优先级的检测工程;对称的风险则是同一张蓝图也同样压缩了进攻的时间线,因此那些建立在「利用开发缓慢」假设之上的补丁优先级判断,值得重新审视。