DEFENSE MEDIUM NEW

微软智能体失效模式分类法 v2.0：零点击绕过人在回路

微软 AI 红队的 v2.0 分类法（2026 年 6 月 4 日）新增七类智能体失效模式，并指出人在回路绕过是被利用最频繁的一类——其中包括从单一外部输入发起的零点击攻击链。

2026-06-07 // 7 min affects: llm-agents, mcp-clients, computer-use-agents, multi-agent-systems, ai-coding-assistants

这是什么？

2026 年 6 月 4 日，微软 AI 红队（AIRT）发布了其《智能体 AI 系统失效模式分类法》v2.0 更新。最初的 v1.0（2025 年 4 月）在很大程度上是前瞻性的，基于威胁建模和从业者访谈构建。v2.0 白皮书则有所不同：它建立在对已部署智能体系统长达十二个月的红队演练之上，新增了七类失效模式和五个新的缓解措施族，并与 OWASP、CSA、MITRE、NIST 和 CoSAI 进行了交叉引用。

在运营层面最重要的发现是经验性的，而非概念性的：在一年的演练中，人在回路（HitL）绕过是被持续利用最频繁的失效模式，且多次演练产生了端到端的零点击攻击链——从单一外部输入出发，在初次启动智能体之外无需任何人工交互，便实现了数据外泄或横向移动。

工作原理

AIRT 的框架认为，真实攻击很少停留在单一失效模式中——复合攻击链才是常态。这七类新增类别描述了可被串联的攻击面：

智能体供应链入侵——被投毒的插件、MCP 服务器、提示模板或工具描述注入自然语言指令，在不触碰任何二进制文件的情况下改变行为。
目标劫持（goal hijacking）——对抗性文本悄然重定向智能体的最终目标，同时继续通过合理性检查（已在产品推荐投毒中被实际观测到）。
智能体间信任提权——通过自然语言诱发的混淆代理问题，编排者信任子智能体自我声明的身份或权限。
计算机使用智能体（CUA）视觉攻击——指令隐藏在智能体所截取的像素中（视口外文本、低对比度横幅、伪造的”批准”按钮），对人工审阅者而言无害。
会话上下文污染——在长会话早期引入的数据会偏置后续推理，而任何单一步骤都不显异常。
MCP / 插件滥用——工具描述投毒、服务器端指令注入，以及跨服务器覆盖（恶意服务器改写可信服务器的行为）。
能力 / 架构泄露——智能体泄露工具名称、模式、系统提示结构或 HitL 触发逻辑，将黑盒探测转化为白盒攻击规划。

从真实演练中报告的 HitL 绕过机制是贯穿其间的纽带。红队通过同意疲劳（反复发出低风险提示）消磨审查、利用概率性调用（由智能体决定何时询问），并采用渐进式提权——其中没有任何单一步骤值得审查，但复合结果却值得。一条典型攻击链以网页托管文档中的跨域注入（XPIA）开始；随后能力泄露泄漏工具模式；一个伪造但符合模式的同意令牌绕过审批，溜过一次高权限调用。其余的由智能体的流水线完成。这正是 lethal trifecta 与 agents rule of two 背后的架构性教训，如今有了十二个月运营数据的支撑。

为何重要

其价值在于从预测走向证据。v1.0 对 HitL 绕过和记忆投毒提出假设；v2.0 则报告：XPIA 与记忆投毒高频出现且频繁组合，跨域注入仍是最可靠的初始访问途径，而会话污染与渐进式提权既高度有效又难以检测，因为没有任何单一步骤显得异常。

对防御者而言，有两点尤为突出。其一，模型层面的评估无法暴露这些问题：零点击攻击链、智能体间信任提权和会话污染只有在系统层面、针对完整任务流的测试中才会显现。其二，能力泄露是枢纽——在 AIRT 许多最高影响的攻击链中，执行首先依赖于提取架构细节，而这往往只需直接询问智能体即可。

防御

v2.0 的缓解措施是架构性的，AIRT 明确指出：它们难以事后改造。必备的简明清单：

将智能体组件视为软件供应链。 生成包含插件、MCP 服务器、提示模板和工具描述的 SBOM；安装前要求签名/来源验证；扫描注册表中工具描述里隐藏的指令，而不仅是恶意代码；锁定版本，因为即便是补丁级升级也可能改变工具的自然语言行为。
零信任的智能体间架构。 在供应阶段为每个智能体颁发可证明的身份；将其绑定到每条消息和工具调用；在任何权限决策前验证身份链。绝不允许子智能体通过自我描述进行提权。
强化同意架构——UX 即安全控制。 使 HitL 调用确定化（不能由智能体决定何时询问），在审批前分解复合操作，从底层工具调用而非智能体自身描述来概括审批提示（以阻止描述洗白），按可逆性与影响半径分级审批，并对审批频率做异常检测以发现同意疲劳的利用。
对抗性会话加固。 为每个 token 标注来源（系统 / 用户 / 检索 / 工具 / 智能体间），在结构上分离可信与不可信内容，监控单一检索文档的框架在各推理步骤中的放大，限定外部内容可影响一次会话的程度，并在不可信数据进入上下文后即锁定敏感工具调用。
抗泄露提示与输出过滤。 在所有输入通道上一致地拒绝对工具列表、系统提示和模式的内省；扫描出站内容（包括记忆写入和智能体间消息）中的模式指纹；在运行时从不可泄露的注册表解析工具清单；并最小化特权面，使泄露的价值更低。对 CUA 攻击面，可搭配视觉注入防御。

状态

项目	参考	日期	备注
v2.0 分类法发布	Microsoft Security Blog	2026-06-04	基于 12 个月红队演练
v2.0 白皮书	Microsoft AI Red Team	标注 2026 年 4 月	7 类新失效模式，5 个缓解措施族
核心发现	HitL 绕过	—	被持续利用最频繁；观测到零点击攻击链
新增模式	供应链入侵、目标劫持、智能体间信任提权、CUA 视觉攻击、会话污染、MCP/插件滥用、能力泄露	—	并入 v1.0 结构，标记 [New in v2.0]
行业对齐	OWASP ASI、CSA、MITRE SAFE-AI、NIST AI 600-1、CoSAI	—	交叉引用，不依赖任一单一框架
v1.0 基线	Taxonomy of Failure Modes v1.0	2025-04	前瞻性前身

正确的启示并非又一个漏洞，而是一次校准：一年的红队演练证实，智能体的持久防御是架构性的——供应链来源验证、密码学智能体身份、确定且分级的同意、按来源标注的上下文——而攻击者实现高影响最可靠的途径，正是悄然绕过本应处于回路之中的那个人。

微软智能体失效模式分类法 v2.0：零点击绕过人在回路

这是什么？

工作原理

为何重要

防御

状态

Sources