系统:运行中
← 返回所有攻击
DEFENSE MEDIUM NEW

微软智能体失效模式分类法 v2.0:零点击绕过人在回路

微软 AI 红队的 v2.0 分类法(2026 年 6 月 4 日)新增七类智能体失效模式,并指出人在回路绕过是被利用最频繁的一类——其中包括从单一外部输入发起的零点击攻击链。

2026-06-07 // 7 min affects: llm-agents, mcp-clients, computer-use-agents, multi-agent-systems, ai-coding-assistants

这是什么?

2026 年 6 月 4 日,微软 AI 红队(AIRT)发布了其《智能体 AI 系统失效模式分类法》v2.0 更新。最初的 v1.0(2025 年 4 月)在很大程度上是前瞻性的,基于威胁建模和从业者访谈构建。v2.0 白皮书则有所不同:它建立在对已部署智能体系统长达十二个月的红队演练之上,新增了七类失效模式和五个新的缓解措施族,并与 OWASP、CSA、MITRE、NIST 和 CoSAI 进行了交叉引用。

在运营层面最重要的发现是经验性的,而非概念性的:在一年的演练中,人在回路(HitL)绕过是被持续利用最频繁的失效模式,且多次演练产生了端到端的零点击攻击链——从单一外部输入出发,在初次启动智能体之外无需任何人工交互,便实现了数据外泄或横向移动。

工作原理

AIRT 的框架认为,真实攻击很少停留在单一失效模式中——复合攻击链才是常态。这七类新增类别描述了可被串联的攻击面:

  1. 智能体供应链入侵——被投毒的插件、MCP 服务器、提示模板或工具描述注入自然语言指令,在不触碰任何二进制文件的情况下改变行为。
  2. 目标劫持(goal hijacking)——对抗性文本悄然重定向智能体的最终目标,同时继续通过合理性检查(已在产品推荐投毒中被实际观测到)。
  3. 智能体间信任提权——通过自然语言诱发的混淆代理问题,编排者信任子智能体自我声明的身份或权限。
  4. 计算机使用智能体(CUA)视觉攻击——指令隐藏在智能体所截取的像素中(视口外文本、低对比度横幅、伪造的”批准”按钮),对人工审阅者而言无害。
  5. 会话上下文污染——在长会话早期引入的数据会偏置后续推理,而任何单一步骤都不显异常。
  6. MCP / 插件滥用——工具描述投毒、服务器端指令注入,以及跨服务器覆盖(恶意服务器改写可信服务器的行为)。
  7. 能力 / 架构泄露——智能体泄露工具名称、模式、系统提示结构或 HitL 触发逻辑,将黑盒探测转化为白盒攻击规划。

从真实演练中报告的 HitL 绕过机制是贯穿其间的纽带。红队通过同意疲劳(反复发出低风险提示)消磨审查、利用概率性调用(由智能体决定何时询问),并采用渐进式提权——其中没有任何单一步骤值得审查,但复合结果却值得。一条典型攻击链以网页托管文档中的跨域注入(XPIA)开始;随后能力泄露泄漏工具模式;一个伪造但符合模式的同意令牌绕过审批,溜过一次高权限调用。其余的由智能体的流水线完成。这正是 lethal trifectaagents rule of two 背后的架构性教训,如今有了十二个月运营数据的支撑。

为何重要

其价值在于从预测走向证据。v1.0 对 HitL 绕过记忆投毒提出假设;v2.0 则报告:XPIA 与记忆投毒高频出现且频繁组合跨域注入仍是最可靠的初始访问途径,而会话污染与渐进式提权既高度有效又难以检测,因为没有任何单一步骤显得异常。

对防御者而言,有两点尤为突出。其一,模型层面的评估无法暴露这些问题:零点击攻击链、智能体间信任提权和会话污染只有在系统层面、针对完整任务流的测试中才会显现。其二,能力泄露是枢纽——在 AIRT 许多最高影响的攻击链中,执行首先依赖于提取架构细节,而这往往只需直接询问智能体即可。

防御

v2.0 的缓解措施是架构性的,AIRT 明确指出:它们难以事后改造。必备的简明清单:

  1. 将智能体组件视为软件供应链。 生成包含插件、MCP 服务器、提示模板和工具描述的 SBOM;安装前要求签名/来源验证;扫描注册表中工具描述里隐藏的指令,而不仅是恶意代码;锁定版本,因为即便是补丁级升级也可能改变工具的自然语言行为。
  2. 零信任的智能体间架构。 在供应阶段为每个智能体颁发可证明的身份;将其绑定到每条消息和工具调用;在任何权限决策前验证身份链。绝不允许子智能体通过自我描述进行提权。
  3. 强化同意架构——UX 即安全控制。 使 HitL 调用确定化(不能由智能体决定何时询问),在审批前分解复合操作,从底层工具调用而非智能体自身描述来概括审批提示(以阻止描述洗白),按可逆性与影响半径分级审批,并对审批频率做异常检测以发现同意疲劳的利用。
  4. 对抗性会话加固。 为每个 token 标注来源(系统 / 用户 / 检索 / 工具 / 智能体间),在结构上分离可信与不可信内容,监控单一检索文档的框架在各推理步骤中的放大,限定外部内容可影响一次会话的程度,并在不可信数据进入上下文后即锁定敏感工具调用。
  5. 抗泄露提示与输出过滤。 在所有输入通道上一致地拒绝对工具列表、系统提示和模式的内省;扫描出站内容(包括记忆写入和智能体间消息)中的模式指纹;在运行时从不可泄露的注册表解析工具清单;并最小化特权面,使泄露的价值更低。对 CUA 攻击面,可搭配视觉注入防御

状态

项目参考日期备注
v2.0 分类法发布Microsoft Security Blog2026-06-04基于 12 个月红队演练
v2.0 白皮书Microsoft AI Red Team标注 2026 年 4 月7 类新失效模式,5 个缓解措施族
核心发现HitL 绕过被持续利用最频繁;观测到零点击攻击链
新增模式供应链入侵、目标劫持、智能体间信任提权、CUA 视觉攻击、会话污染、MCP/插件滥用、能力泄露并入 v1.0 结构,标记 [New in v2.0]
行业对齐OWASP ASI、CSA、MITRE SAFE-AI、NIST AI 600-1、CoSAI交叉引用,不依赖任一单一框架
v1.0 基线Taxonomy of Failure Modes v1.02025-04前瞻性前身

正确的启示并非又一个漏洞,而是一次校准:一年的红队演练证实,智能体的持久防御是架构性的——供应链来源验证、密码学智能体身份、确定且分级的同意、按来源标注的上下文——而攻击者实现高影响最可靠的途径,正是悄然绕过本应处于回路之中的那个人。

Sources