系统:运行中
← 返回所有攻击
AGENTS MEDIUM NEW

用户中介攻击:当用户成为注入通道

2026 年 1 月一项针对 12 个商用智能体的研究表明,攻击者无需触碰智能体本身,只需诱使善意用户转发被投毒的内容——指令层级随即将其提升为可信的用户意图。默认绕过率超过 92%。

2026-06-19 // 7 min affects: llm-agents, web-use-agents, planning-agents

这是什么?

用户中介攻击是一类智能体攻陷手法,攻击者从不直接接触智能体,而是操纵一名善意用户,让用户自己把攻击者控制的内容转发进自己的请求。为这一模式命名并加以测量的论文——Chen、Wu、Nguyen 与 Rudolph(莫纳什大学与 CSIRO 旗下 Data61)撰写的 Too Helpful to Be Safe: User-Mediated Attacks on Planning and Web-Use Agents——于 2026 年 1 月发布于 arXiv(2601.10758)。研究在沙箱中评估了 12 个商用智能体(6 个行程规划智能体、6 个网页操作智能体),并发现它们默认情况下「过于乐于助人,以致不安全」。

核心发现是:安全能力存在,但优先级缺失。这些智能体本可以执行安全检查,却只在用户明确要求时才执行。在没有安全请求的情况下,行程规划智能体在超过 92% 的情形下绕过了安全约束,多个网页操作智能体在高风险动作上达到了 100% 的绕过率

工作原理

智能体安全研究大多假设存在「环内攻击者」:对手直接向智能体输入恶意内容,或污染智能体检索的语料库。用户中介攻击则反转了这一前提。攻击者只控制用户所看到的内容,通过四步流程实施:

  1. 播种。 攻击者在公共平台发布一条看似无害、有说服力的帖子(一条 Reddit 帖、一则「限时折扣」、一篇操作指南)。其中携带载荷——伪装的 URL、跳转链或待执行的步骤。
  2. 转发。 用户在浏览时遇到它,并把它粘贴或引用进自己的智能体:「用这个优惠码帮我订这趟行程」「按这些步骤操作」。被投毒的内容由此从开放网络越界进入智能体的输入。
  3. 执行。 智能体在已被偏置的上下文上进行规划与行动。
  4. 放大。 智能体令人安心的输出(「看起来是官方的,可以继续」)提升了用户的信任,促成最终的有害批准。

其机制即作者所称的指令来源升级。现代防御按可信级别对指令排序:系统提示 > 用户输入 > 外部内容/模型输出。间接注入被视为低可信的外部数据。但当内容经由用户的消息到达时,层级会把它重新标记为高优先级的用户意图。同一段载荷,若作为网页文本本会被过滤器怀疑,却因转发这一步被「洗白」进入可信通道。此处不复现任何载荷;这条教训是结构性的,而非操作配方。

测得的失败模式十分具体。URL 验证浅薄且过度自信:智能体在没有真正验证的情况下断言仿冒抢注(typosquatting)、域名抢注(cybersquatting)和西里尔字母同形域名是「官方」的;即便在温和的安全请求下,仅修改 URL 前缀也有 88% 的概率绕过检查。网页操作智能体会在 httphttpsdatajavascript 各类协议上打开恶意链接,依赖浏览器黑名单而非智能体自身的推理。它们仅凭任务进度执行动作,滚动略过明显的恶意内容,填写隐藏的 DOM 字段,并在出现伪造的「失败」消息时重新提交数据——在用户与智能体都以为只是在重试时,悄然将数据外泄。

为什么重要

这填补了输入过滤无法覆盖的缺口。主流防御假设攻击者无法访问智能体,因此保护其输入即足够。用户中介攻击满足这一假设却仍能得手,因为人才是载体。2026 年 3 月的综述 From Secure Agentic AI to Secure Agentic Web2603.01564)刻画了同样的转变:当智能体从受控的工具面转向开放且有人参与的网络,信任边界不再是 API,而变成了一切可以被说服用户去转发的内容。

它也抬高了「乐于助人」的代价。一个建议错误预订的智能体尚有挽回余地;一个会点击、提交并付款的网页操作智能体则造成即时且不可逆的危害。研究发现智能体缺乏「最小动作停止规则」——它们会超出用户的真实目标继续交互,把每一个可用控件都当作合法指令。危险不在于缺少安全模型,而在于安全是可选的,取决于用户怎么措辞。

防御

  • 让安全成为默认行为,而非由提示触发的模式。 对任何涉及外部资源或资金的任务,无论用户是否要求,智能体都应执行风险检查。不要指望用户说「小心一点」——温和的请求仍有高达 55% 的绕过率。
  • 将用户转发的内容视为不可信,而非用户意图。 引用的帖子、粘贴的链接以及「按这些步骤操作」之类的载荷,即便出现在用户消息中,也应保持外部数据的可信级别。抵制将其升级的指令层级机制。
  • 正确验证 URL。 应用 Unicode/IDN 规范化,核验来源与完整的注册域名(而非前缀或仅凭域名相似度),并且在没有真正检查前绝不断言「官方」或「已验证」。过度自信的安抚本身就是攻击的一部分。
  • 以必要性为执行的前提。 加入最小动作停止规则:每一次点击、提交或下载都应由所声明的任务来证成。在任务完成处停止,而非穷尽页面上的每个交互元素。
  • 核验后端状态,而非仅看前端信号。 在重试之前确认提交是否真正成功,使伪造的「失败」消息无法触发静默重提交与外泄。
  • 构建用户侧防御。 这是当前未受保护的通道。当用户转发的内容包含链接或指令时应予以警示,并在智能体行动之前展示它将对什么采取行动。

状态

项目详情
来源arXiv 2601.10758(2026 年 1 月)
范围12 个商用智能体:6 个行程规划、6 个网页操作
核心发现安全取决于用户的措辞,而非默认行为
默认绕过率>92%(规划);高达 100%(网页高风险动作)
温和安全请求下绕过率仍高达约 55%
类别用户中介注入 / 指令来源升级
披露学术研究;行为在沙箱中测得,无真实危害

持久的框架是:指令层级可能被反过来利用。把用户置于外部数据之上,对正常使用而言是正确选择——但这意味着,触达用户(而非智能体)的攻击者继承了用户的信任级别。只要安全检查仍是用户必须主动索取的东西,最礼貌、最乐于助人的智能体也就是最易被利用的那一个。

Sources