系统:运行中
← 返回所有攻击
OFFENSIVE AI MEDIUM NEW

AI 编写的零日漏洞:GTIG 如何识别首个由模型构建的利用程序

2026 年 5 月 11 日,Google GTIG 披露了首个其认为由 AI 开发的零日漏洞——一个绕过 2FA 的脚本,因虚构的 CVSS 评分和教科书式的 docstring 而暴露。本文讲解如何解读这些迹象。

2026-06-01 // 5 min affects: open-source-web-admin-tools, 2fa-implementations, frontier-llms

这是什么?

2026 年 5 月 11 日Google 威胁情报组(GTIG)发布报告称,它首次识别到某威胁行为者使用了一个其认为借助 AI 开发的零日利用程序。一个犯罪团伙——用 GTIG 的话说,“在高调事件和大规模利用方面有着丰富的记录”——计划在一次大规模利用行动中部署该漏洞。GTIG 表示其”主动反向发现”很可能阻止了这一行动,并与受影响的厂商合作,在攻击行动启动前完成了披露与修补。

利用程序本身规模有限:一个 Python 脚本,用于绕过一款流行的开源、基于 Web 的系统管理工具的双因素认证(2FA),且仍需有效凭据。让这次披露值得一读的不是漏洞本身,而是其来源:脚本带有可观察到的、由语言模型编写的指纹,而底层缺陷正属于传统工具难以发现的那一类。

工作原理

GTIG 的叙述中有两点对防御方至关重要。

首先是缺陷类别。这既不是内存破坏漏洞,也不是输入清洗错误,而是一个高层次的语义逻辑缺陷:开发者在 2FA 强制执行逻辑中硬编码了一个信任假设——一个与其本应执行的控制相矛盾的例外。模糊测试器和静态分析针对崩溃和数据流汇聚点进行了优化,这类休眠的逻辑错误在它们看来功能上是正确的。据 GTIG 所述,前沿模型”擅长识别此类高层次缺陷和硬编码的静态异常”,因为它们能读懂开发者的意图,并将 2FA 逻辑与那些悄然破坏它的例外关联起来。

其次是 AI 编写的迹象。GTIG 基于产物的结构(而非任何供认)高度确信该利用程序出自 AI:

指纹                                它看起来是怎样的
----------------------------------  -------------------------------------------
虚构的 CVSS 评分                     嵌入代码中的严重性评级,
                                    不对应任何真实的 CVE 条目
过度文档化的 docstring              远超操作者为私有进攻性工具
                                    所会编写的"教学式"注释
教科书式的 Python 结构              详尽的帮助菜单、整洁的 ANSI 颜色类、
                                    符合训练数据特征的惯用脚手架

这些迹象单独来看都不能作为证据——人类也能写出整洁的代码,操作者也可以删去注释。但当它们组合出现在一个冗长却毫无操作收益的私有攻击工具上时,便构成了可识别的特征。GTIG 明确表示,它认为使用了自家的 Gemini 模型。

报告将这一切置于一个更大的转变之中,GTIG 称之为”生成式模型在进攻性工作流中的工业化规模应用”:与中国相关的 UNC2814 让模型扮演”高级安全审计员”进行固件研究,朝鲜 APT45 发送数千条递归提示以验证概念验证利用,俄罗斯相关的恶意软件家族则使用 AI 生成的诱饵代码来伪装其真实功能。

为何重要

发现该漏洞的能力——通过读懂开发者意图来揭示逻辑缺陷——可以推广。语义逻辑缺陷恰恰是历来在自动化审查中得以幸存的长尾,因为发现它需要理解代码本应做什么,而不仅是它实际做了什么。如果前沿模型大规模弥合这一差距,不对称性将向”谁能最快运行最多分析”的一方倾斜。GTIG 首席分析师 John Hultquist 直言:” 人们误以为 AI 漏洞竞赛即将到来。实际上它早已开始。”

另一面同样清晰可见。该缺陷最先由 Big Sleep 发现——这是 Google DeepMind 与 Project Zero 的漏洞发现智能体,防御性 AI 抢在攻击者之前找到了漏洞。这场竞赛是对称的;问题在于谁迭代得更快。

防御措施

对于防御方和事件响应团队,实用要点很具体。

AI 编写指纹视为分诊信号,而非定论。源代码中虚构的 CVSS 评分、进攻性工具上过度解释的 docstring、以及可疑的教科书式结构,单独来看都是弱指标,组合起来才有意义。用它们来排定审查优先级,切勿仅凭此进行归因。

在自身审查中弥合语义缺陷的差距。模糊测试器和 SAST 将持续漏掉硬编码的信任假设和相互矛盾的授权例外。应将其与由 LLM 辅助的审查相结合,明确提示其专门查找与既定安全意图相矛盾的逻辑——也就是攻击者正在使用的同一能力,反向用于防御——并在认证和 2FA 路径上保留人工对授权逻辑的审查。

假设你的技术栈中存在 2FA 绕过逻辑缺陷,并缩小影响半径:实施纵深防御,使单一绕过加上有效凭据不等于完全访问,并监控认证异常,而非信任那道关卡。

最后,在发现侧采用防御性 AI。这起事件的教训不是 AI 赋予了攻击者新的超能力;而是同样的智能体会发现同样的漏洞,主动扫描的一方赢得时间竞赛。Big Sleep 这样的项目以及 CodeMender 这样的自动修复智能体,存在的意义正是为了抢先到达。

状态

项目详情
披露GTIG 报告,2026 年 5 月 11 日(33 页)
漏洞某开源 Web 管理工具中的 2FA 绕过逻辑缺陷(厂商未具名);需有效凭据
状态负责任披露;厂商已修补;计划中的大规模利用行动被挫败
AI 参与高度确信该利用程序由 AI 开发;GTIG 表示未使用 Gemini
由防御方发现Google DeepMind / Project Zero 的”Big Sleep”智能体

Sources