浏览器智能体会通过点击方式暴露其底层模型
2026 年 5 月 14 日的一篇论文显示,LLM 浏览器智能体在页面上的操作足以识别其底层模型,在 14 个前沿模型上准确率高达 96%,且无需依赖可伪造的请求头。
这是什么?
Known By Their Actions: Fingerprinting LLM Browser Agents via UI Traces(arXiv 2605.14786,2026 年 5 月 14 日发布)表明,仅凭观察一个浏览器智能体如何与网页交互,就能判断驱动它的是哪个大语言模型。作者采集智能体在页面上的操作——导航、点击、滚动、输入,以及交互的顺序与节奏——并在这些轨迹上训练轻量级分类器。在 14 个前沿模型上,他们报告的识别得分高达 96% 的 Macro F1。
关键在于,这种指纹并不依赖于运营方可以轻易更改的任何东西。它不是 User-Agent 字符串、HTTP 请求头、IP 地址或 TLS 栈——这些都可以伪造。它是行为:某个模型决定看哪里、点什么、以何种顺序操作的时间与结构动态。智能体的操作,实际上就是产生这些操作的模型的签名。
工作原理
研究者用注入的 JavaScript 对目标页面进行插桩,记录智能体在完成任务时生成的界面事件序列。每个模型都会产生可识别的模式:偏好的交互顺序、特有的停留时间与操作间延迟、点击失败后的恢复方式、浏览表单的方式。这些模式足够稳定,以至于一个在带标注轨迹上训练的简单分类器,就能高精度地将未知会话归因到其来源模型。
在采集端,该方法与模型无关。论文发布了覆盖四个网页环境的带标注交互轨迹语料库,以及一个兼容闭源和开源模型的浏览器框架,因此无论智能体基于专有 API 还是自托管的开放权重模型,攻击都奏效。无需对智能体的任何特权访问——只需智能体访问的一个普通网页,加上任何网站为分析或机器人检测而已经收集的客户端遥测数据。
agent performs task on page
→ injected JS logs UI action trace (clicks, scrolls, timing, order)
→ classifier trained on labelled traces
→ predicts underlying model (up to ~96% Macro F1, 14 models)
为何重要
行为指纹把大多数团队视为不可见的属性——哪个模型在驱动智能体——变成了远程网站可以读取的信息。其后果是多方面的。它挫败了将模型选择保密、或在不被察觉的情况下在多家供应商之间轮换的努力。它向攻击者提供了一个侦察原语:一旦得知确切的模型,网站便可投放针对该模型已知弱点定制的间接提示注入或越狱载荷,从而提高成功率。它还助长了机器人检测与访问控制的军备竞赛,使网站能够有选择地封锁、限速或欺骗特定智能体,而不受请求头伪造的影响。对于在敏感工作流中运行智能体的人而言,行为签名成为一条能够绕过常规网络层对策的去匿名化通道。这与一条更广泛的研究脉络相呼应,即通过侧信道推断 LLM 使用情况,例如对智能体交互进行流量指纹分析(arXiv 2510.07176)。
防御
由于该泄露是每个模型行为的固有属性,因此没有单一的修复方案。实用的缓解措施侧重于削弱信号、抬高归因成本:
- 将模型身份视为可泄露的。 在威胁建模时,假设远程网站仅凭行为就能得知你的模型,不要依赖请求头或 IP 混淆来保证匿名。
- 加入受控的随机化。 在操作间延迟中引入抖动,并在安全的前提下变化交互顺序,使时间与结构模式更难被区分。这是以少量效率换取更低的辨识度。
- 规范化操作层。 让智能体的决策经过一个确定性执行框架,对点击、滚动、表单填写的发出方式进行标准化,使不同模型共享一个统一的底层交互画像。
- 隔离高风险页面。 由于指纹识别使得针对模型的注入成为可能,应让不可信的网页内容远离持有凭据或工具的智能体,这与”致命三要素”(lethal trifecta)和最小权限原则一致。
- 监控并限制采集端遥测。 在自有站点上,认识到细粒度的界面遥测是双重用途的,本身也可用于对来访智能体进行画像。
这些措施会降低攻击的可靠性,但按照论文的论述,并不能消除行为归因:辨识度是模型决策的一种特征,而非可一次性修补的缺陷。
状态
这是一项研究披露,而非产品漏洞,因此没有 CVE 或厂商补丁。作者将该工作定位为推动 LLM 智能体行为归因的可复现研究,并为此发布了数据集与框架。构建或部署浏览器与 computer-use 智能体的团队,应当在智能体集群进一步扩大之前,现在就把模型身份泄露纳入威胁模型。
关键日期:论文于 2026 年 5 月 14 日发布(arXiv 2605.14786)。