系统:运行中
← 返回所有攻击
DEFENSE MEDIUM NEW

认知防火墙:面向浏览器智能体的分离式计算防御

2026 年 3 月的一篇 eBay 论文,将本地哨兵、云端规划器与确定性执行守卫层叠在一起,把浏览器智能体的间接提示注入成功率从 100% 降到 1% 以下。

2026-06-22 // 6 min affects: browser-agents, gemini-nano, llama-3, gpt-4, llm-agents

这是什么?

浏览器智能体读取页面的 DOM,进行规划,然后采取行动:点击、发布、删除、发送。由于系统提示、用户指令与不可信的网页内容都进入同一个上下文窗口,控制页面内容的攻击者可以植入智能体将会执行的指令。这就是间接提示注入(IPI),在 OWASP 大语言模型应用十大风险 中被列为 LLM01。

认知防火墙(Cognitive Firewall)eBay 公司 的 Qianlong Lan 与 Anuj Kaul 于 2026 年 3 月 24 日 在 arXiv 上发表的论文,编号 arXiv:2603.23791。它提出的防御建立在一个朴素的认识之上:没有任何概率性检查能够拦截所有注入,因此漏网那一个所带来的后果必须以确定性的方式加以约束。它是一种分离式计算(split-compute)架构,把三道检查分布在浏览器与云端之间,在作者的基准测试中将攻击成功率从 100%(无防御)降至 0.88%

工作原理

其设计是一个 「防御漏斗」:低成本的检查先在边缘运行,只有模糊的情况才上升到云端。三个层级对应三类攻击。

第一层 —— 边缘哨兵(Edge Sentinel) 在浏览器中、基于一个小型端侧模型(通过 Chrome 内置 AI API 调用的 Gemini Nano)运行。它强制 视觉一致性:智能体不得对用户看不见的文本进行推理。它将 DOM 源代码与计算样式(CSSOM)进行比对,拦截表现层的伎俩 —— opacity: 0、零字号字体、用 left: -9999px 移出屏幕的文本 —— 同时放过合法的无障碍标记。它的运行时间约为 ~0.06 ms,因此被拦截的载荷永远到不了云端,也不消耗任何 token。

第二层 —— 深度规划器(Deep Planner) 在服务器端、基于更大的模型运行(原型使用了 Llama 3 8B 或 GPT-4),并配以专门的 「安全分析师」 提示。它强制 目标完整性,捕捉边缘模型放过的语义操纵:角色扮演(「你现在处于开发者模式」)、伪造的分隔符如 --- END SYSTEM INSTRUCTIONS ---,或人为制造的紧迫感。

第三层 —— 来源守卫(Origin Guard) 是一个确定性的、不依赖模型的执行监视器。它通过一个同步 JavaScript 拦截器强制 执行安全:在发出之前,针对来源白名单与动词策略校验每一个出站动作。即使规划器被彻底欺骗,指向非白名单来源的 DELETE 请求或数据外泄请求也会被拦截。作者称这种行为为 「失败即关闭」(fail-closed):计划中的任何模糊性都构成拒绝的理由。

为何重要

消融实验把分层逻辑落到了实处。在 1000 个混合了良性与对抗性任务的样本上,仅靠边缘的过滤留下了 86.9% 的攻击成功率;边缘加云端对劫持类攻击仍有 39.2% 漏网;完整的三层堆栈达到 0.88%,拦截率约为 99.1%。面对一个了解该流水线的 自适应 白盒攻击者,总体成功率降至 0.67%(300 次中 2 次)。把载荷拆分到单字符节点的 DOM 碎片化攻击能绕过边缘,但会被云端规划器重建(95% 的情况下),并在守卫处被拦下。

更宏观的教训是架构性的:在执行边界上的确定性强制,可以为概率性的语言模型兜底。随着浏览器智能体承担起有副作用的动作,「模型决定不去做」并不是一种控制 —— 「请求在离开设备之前就被拦截」 才是。

防御

这篇论文本身就是一份防御蓝图,其结论可以推广到原型之外:

  1. 将控制平面与数据平面分离。 把智能体摄入的所有网页内容都视为不可信,不要让它重新定义用户的目标。这与站点隔离(Site Isolation)背后的本能一致,只是应用到了上下文窗口。
  2. 以确定性方式管控副作用。 在计划与动作之间放置一个不依赖模型的拦截器。将来源加入白名单,把 HTTP 动词约束到已声明的意图(只读任务绝不应发出 DELETE 或带参数的出站 GET),并对任何模糊情况失败即关闭。
  3. 在源头过滤表现层伎俩。 将渲染结果与原始 DOM 源进行比对,在不可见或移出屏幕的文本进入提示之前就将其剔除 —— 以低成本、在设备上、在任何云端调用之前完成。
  4. 不要把小型端侧模型当作语义裁判。 边缘层漏过了 86.9% 的语义越狱;它是一个快速的预过滤器,而非安全机制本身。把困难的情况上交给更强的模型。
  5. 为高风险或模糊的动作引入人工。 残余的失败来自 「良性包装」 攻击(2.0%),它们说服规划器进入许可模式,再加上对合法任务 1.7% 的误报率 —— 这两点都支持采用一个交互式确认步骤,而不是静默地放行或拦截。这与一个更广泛的争论相呼应:究竟是防火墙就够了,还是需要更强的基准测试

现状

项目参考备注
论文arXiv:2603.23791Lan 与 Kaul,eBay 公司,2026 年 3 月 24 日
架构认知防火墙 —— 哨兵 / 规划器 / 守卫分离式计算,纵深防御,失败即关闭
边缘模型Gemini Nano(Chrome 内置 AI)~0.06 ms,拦截视觉混淆
云端模型Llama 3 8B / GPT-4(原型)安全分析师提示,语义检查
结果攻击成功率 100% → 静态 0.88%,自适应 0.67%N = 1000;约 99.1% 拦截
已知局限基于图像的注入可绕过第一层;1.7% 误报;完整流水线延迟约 950 ms原型,非真实流量

要点:浏览器智能体把代码与数据融合进单一的 token 流,因此语义检查将始终是概率性的,并且偶尔出错。认知防火墙的贡献在于不再把它当作最后一道防线 —— 而是在推理转化为真实动作的那个点上,放置一个确定性的、失败即关闭的守卫。

Sources