PRAC:通过注意力劫持电脑操作智能体的选择
蒂宾根 2026 年 4 月的一篇论文表明,仅一张被难以察觉地扰动的商品图片,就能集中电脑操作智能体的视觉注意力,从而左右其 82% 的选择,而完全不触及其输出。
这是什么?
电脑操作智能体(computer-use agents,CUA)越来越多地代替用户在图形界面上行动:浏览网页、填写表单、做出购买决策。它们构建在视觉语言模型(VLM)之上,由模型「看」屏幕并决定点击何处。来自**蒂宾根人工智能中心(蒂宾根大学)**的 Dominik Seip 与 Matthias Hein 在 arXiv 上发表了论文 arXiv:2604.08005,提出了 PRAC——通过注意力集中实现偏好重定向(Preference Redirection via Attention Concentration),这是一种悄然操纵智能体最终选择的攻击。
其独特之处在于:PRAC 并不像提示注入或恶意弹窗那样试图破坏模型的输出,而是通过「将模型的注意力重定向到一个隐蔽的对抗补丁」来操纵其内部偏好。在电商案例研究中,一张被扰动的商品图片使智能体「看见」并因此选中攻击者的商品,而该图片仍然显示真实商品,扰动对人类而言几乎不可察觉。
工作原理
PRAC 针对的是语言模型解码器内部的注意力分数,而非智能体输出的定位坐标或选择字符串。从概念上讲,对抗性商品图片被优化为在模型各层中相对于上下文中的其他图片「吸引异常高的注意力分数」;其目标被表述为最大化落在目标图片上的视觉注意力占比。在做出选择的时刻,这张图片主导了智能体所关注的内容,于是被选中。
由于操纵存在于内部注意力之中,而非产生的文本或动作,因此具有很高的可迁移性:它无需针对固定的输出或网格中已知的位置进行优化。扰动被限制在较小的预算 ‖δ‖∞ ≤ 8/255 之内,「小到人类要么完全察觉不到,要么至多将其视为一张低质量图片」。没有注入任何文本指令,页面本身仍然可信。
正是这种贴近现实的威胁模型令该攻击值得注意。攻击者被建模为一个恶意的第三方卖家,他「可以操纵网站上的商品图片,但无法控制网站本身」,既不能选择自己商品在网格中的位置,也不能固定智能体的输出。一个相反方向的约束是:作者「假设对 CUA 拥有白盒访问权限」(对微调变体仅为黑盒),并将这一访问要求列为当前的局限。
为何重要
在四个开放权重的 VLM 智能体——Qwen3-VL-8B、GLM-4.6V-Flash、Kimi-VL-A3B 与 EvoCUA-8B——上测试,PRAC 取得了 82.3% 的平均选择成功率,而干净基线为 20.8%(五件商品时,随机选择约为 20%),且「比次优基线高出 ≥ 15% 的选择率」。该攻击迁移到这些模型的微调后代时,成功率仅下降 0–40%,因为「对我们攻击的易受性继承自基础架构」。
这是一种针对智能体决策完整性的攻击,而非数据泄露——但其后果是商业性和对抗性的。它悄然将「智能体买了哪件商品?」变成第三方可以操控的事,并且这种选择重定向可推广到「任何需要 CUA 基于视觉信息进行自主选择的任务」。它延续了此前针对 CUA 的视觉威胁,例如对抗性弹窗,同时又规避了那些威胁所催生的、以文本为中心的防御。
防御
令人不安的发现是:常规护栏完全察觉不到它,因为智能体的行为停留在「预期的用户交互」之内,其输出也是良性的。
- 不要依赖输出/护栏过滤器。 在此处,那些「监控并过滤模型输出以发现安全违规的模型是无效的」——没有任何恶意字符串可供捕获。输入端的注入过滤器同样会漏掉它,因为没有注入任何文本。
- 提示层面的防御不够。 作者测试了 Instruction Hierarchy 与一个 Reflection Prompt;两者都被「判定为对该攻击无效」,PRAC 视模型不同仍有 58–97% 的成功率。
- 将视觉输入视为对抗性的。 论文指出的现实路径是模型层面的鲁棒性——「对抗训练或其他技术」——使作为 CUA 使用的 VLM 能抵御注意力操纵,而非在下游修补。
- 加入非视觉的选择校验。 当 CUA 做出有后果的选择(购买、审批)时,应将其建立在结构化的带外数据(价格、卖家信誉、商品 ID)之上,而非仅凭渲染出的图片,并为高价值操作保留人工介入。
- 限制对单一卖家素材的信任。 来自一个不受控第三方的扰动图片,不应能够主导一次选择;请使驱动决策的信号多元化。
状态
| 项目 | 参考 | 备注 |
|---|---|---|
| 论文 | arXiv:2604.08005 | Seip 与 Hein,蒂宾根人工智能中心 |
| 攻击 | PRAC——通过注意力集中实现偏好重定向 | 针对解码器注意力,而非输出 |
| 测试模型 | Qwen3-VL-8B、GLM-4.6V-Flash、Kimi-VL-A3B、EvoCUA-8B | 平均 SSR 82.3% 对比干净基线 20.8% |
| 威胁模型 | 一张被扰动的商品图片,‖δ‖∞ ≤ 8/255,白盒 | 微调变体为黑盒 |
| 代码 | 「最迟在论文被接收时发布」 | 撰文时尚未提供 |
要点:PRAC 提醒我们,智能体的注意力同样是一个攻击面,与其提示或输出并列。只要一张被扰动的图片能够主导 VLM 智能体所关注的内容,那些只检查文本或输出的防御就不会察觉这种操纵的到来——而持久的修复在于模型的鲁棒性,而非下游的过滤器。