RESEARCH LOW NEW

FORGE：把 CVE 变成漏洞利用与检测规则的多智能体流水线

Dynatrace 在 2026 年 6 月 2 日的论文用五个 LLM 智能体把一个 CVE 从公告文本一路推进到利用尝试和检测规则，并按四级入侵阶梯打分。

2026-06-22 // 6 min affects: llm-agents

这是什么？

2026 年 6 月 2 日，Dynatrace 研究员 Farooq Shaikh 发表了 FORGE: Multi-Agent Graduated Exploitation and Detection Engineering（arXiv:2606.03453），该论文被 ARES 2026 大会的 AgentCy 研讨会接收。论文针对的是一个工作流问题，而非单一漏洞：已披露 CVE 的数量如今已远超任何组织的评估能力，而本应协作的三个社区——概念验证（PoC）生成、漏洞优先级排序、检测规则工程——大多各自为政。

FORGE 试图把这三个环节接入一条统一的 LLM 智能体流水线。对防御者而言，有意思的不是智能体能写出利用代码，而是同一次运行还会产出一条检测规则，以及一个关于利用实际深度的、分级且经过审计的判定。完整代码、按 CVE 的结果以及预言机的审计判定均以 Apache 2.0 许可证发布在 github.com/dynatrace-oss/forge。

工作原理

FORGE 以固定流水线运行五个专职智能体，每个智能体消费前一个的输出：

Intel — 摄取某个 CVE 的元数据（公告文本、受影响组件），并抽取后续阶段所需的结构化事实。
Generator — 构建一个目标化的脆弱应用：一个最小化、自包含、能复现该缺陷的应用，使利用过程针对专门搭建的实验靶标运行，而不是针对任何人的生产系统。
Planner — 把情报转化为利用策略。
Exploit — 针对生成的靶标进行受引导的多轮利用尝试。
Detector — 根据利用过程的产物，编写一条检测规则。

新颖之处在于论文所称的分级利用：不再是「成或败」的二元判断，而是由一个以 LLM 为主的预言机按四级分类法对每次尝试打分，从 L0（无利用证据） 到 L3（完全攻陷）。对成功的深度而非仅仅成败进行评分，正是流水线得以排序优先级的关键：一个智能体能在忠实复现上推进到 L3 的 CVE，与一个止步于 L1 的 CVE，是截然不同的运营信号。由于利用过程只针对 Generator 的合成靶标运行，这一闭环在不触碰生产软件的前提下产出证据与检测规则。

为什么重要

FORGE 与近期关于「捕猎或分诊漏洞的智能体」的工作属于同一新兴类别——长周期漏洞挖掘基准、以规格为先的漏洞检测，以及通用智能体仍然不敌确定性 SAST 工具这一冷静的结论。FORGE 增加的，是从漏洞到可部署检测之间的那座桥，并附带一个分级的置信信号。

这座桥是双向的。对 SOC 来说，从「新 CVE 刚刚落地」到「一条候选检测规则外加一个可供测试的复现」之间的自动化通路确实有用，而把可利用性评估从数周压缩到数小时，也与智能体红队工作的报告相呼应。但同样的架构也是攻击者可以照搬的模板：一条读取公告、逐步推进到可用利用的流水线，正是威胁建模论文所预言的攻击工业化。开源发布同时降低了防御者与对手的门槛——这是任何公开发布的攻击性工具都无法回避的固有张力，也正因如此，评估与预言机审计的透明度，与利用结果同样重要。

防御

对于把 FORGE 当作防御者而非工具构建者来阅读的团队：

把检测输出当作草稿，而非可直接部署的规则。 LLM 生成的检测只反映了一次合成复现；在让它把守任何关卡之前，先用真实遥测数据验证并针对误报进行调优，这与对待 LLM 扫描器输出应有的审慎相同。
不要盲目相信评分。 L0–L3 的判定来自一个以 LLM 为主的预言机；论文公开其审计判定，正是为了便于核查。用这个分级分数去排序人工复核，而非取代它。
假设攻击者拥有同样的流水线。 如果你技术栈中的某个 CVE 属于 FORGE 式智能体能在忠实克隆上推进到 L3 的那一类，就应相应调整补丁的紧迫性——过去为你争取时间的评估窗口正在收窄。
让生成环节保持在沙箱中。 该设计的安全属性在于利用过程只针对临时搭建的靶标运行。任何对此模式的内部改造都必须保留这种隔离，绝不能把 Exploit 智能体指向存活或共享的基础设施。
用分级结果而非仅仅工单数量来驱动优先级排序。 四级分类法的意义在于把「理论上可利用」与「可被证明利用」区分开；用它来为修复排序。

状态

项目	参考	日期	备注
论文	arXiv:2606.03453	2026-06-02	AgentCy 研讨会，ARES 2026
流水线	Intel → Generator → Planner → Exploit → Detector	2026-06-02	五个智能体，顺序固定
评分	L0（无证据）→ L3（完全攻陷）	2026-06-02	以 LLM 为主的预言机，经审计
代码	github.com/dynatrace-oss/forge	2026-06-02	Apache 2.0，附带工件仓库

要点：FORGE 与其说是一种新攻击，不如说是一个证明——CVE → 利用 → 检测这一闭环，可以用当下的 LLM 智能体端到端地自动化，并在过程中给出置信度分级。对防御者而言，其实用价值是更快、更有优先级的检测工程；对称的风险则是同一张蓝图也同样压缩了进攻的时间线，因此那些建立在「利用开发缓慢」假设之上的补丁优先级判断，值得重新审视。

FORGE：把 CVE 变成漏洞利用与检测规则的多智能体流水线

这是什么？

工作原理

为什么重要

防御

状态

Sources