DEFENSE MEDIUM NEW

认知防火墙：面向浏览器智能体的分离式计算防御

2026 年 3 月的一篇 eBay 论文，将本地哨兵、云端规划器与确定性执行守卫层叠在一起，把浏览器智能体的间接提示注入成功率从 100% 降到 1% 以下。

2026-06-22 // 6 min affects: browser-agents, gemini-nano, llama-3, gpt-4, llm-agents

这是什么？

浏览器智能体读取页面的 DOM，进行规划，然后采取行动：点击、发布、删除、发送。由于系统提示、用户指令与不可信的网页内容都进入同一个上下文窗口，控制页面内容的攻击者可以植入智能体将会执行的指令。这就是间接提示注入（IPI），在 OWASP 大语言模型应用十大风险中被列为 LLM01。

认知防火墙（Cognitive Firewall） 是 eBay 公司 的 Qianlong Lan 与 Anuj Kaul 于 2026 年 3 月 24 日 在 arXiv 上发表的论文，编号 arXiv:2603.23791。它提出的防御建立在一个朴素的认识之上：没有任何概率性检查能够拦截所有注入，因此漏网那一个所带来的后果必须以确定性的方式加以约束。它是一种分离式计算（split-compute）架构，把三道检查分布在浏览器与云端之间，在作者的基准测试中将攻击成功率从 100%（无防御）降至 0.88%。

工作原理

其设计是一个「防御漏斗」：低成本的检查先在边缘运行，只有模糊的情况才上升到云端。三个层级对应三类攻击。

第一层 —— 边缘哨兵（Edge Sentinel） 在浏览器中、基于一个小型端侧模型（通过 Chrome 内置 AI API 调用的 Gemini Nano）运行。它强制 视觉一致性：智能体不得对用户看不见的文本进行推理。它将 DOM 源代码与计算样式（CSSOM）进行比对，拦截表现层的伎俩 —— opacity: 0、零字号字体、用 left: -9999px 移出屏幕的文本 —— 同时放过合法的无障碍标记。它的运行时间约为 ~0.06 ms，因此被拦截的载荷永远到不了云端，也不消耗任何 token。

第二层 —— 深度规划器（Deep Planner） 在服务器端、基于更大的模型运行（原型使用了 Llama 3 8B 或 GPT-4），并配以专门的「安全分析师」提示。它强制 目标完整性，捕捉边缘模型放过的语义操纵：角色扮演（「你现在处于开发者模式」）、伪造的分隔符如 --- END SYSTEM INSTRUCTIONS ---，或人为制造的紧迫感。

第三层 —— 来源守卫（Origin Guard） 是一个确定性的、不依赖模型的执行监视器。它通过一个同步 JavaScript 拦截器强制 执行安全：在发出之前，针对来源白名单与动词策略校验每一个出站动作。即使规划器被彻底欺骗，指向非白名单来源的 DELETE 请求或数据外泄请求也会被拦截。作者称这种行为为「失败即关闭」（fail-closed）：计划中的任何模糊性都构成拒绝的理由。

为何重要

消融实验把分层逻辑落到了实处。在 1000 个混合了良性与对抗性任务的样本上，仅靠边缘的过滤留下了 86.9% 的攻击成功率；边缘加云端对劫持类攻击仍有 39.2% 漏网；完整的三层堆栈达到 0.88%，拦截率约为 99.1%。面对一个了解该流水线的 自适应 白盒攻击者，总体成功率降至 0.67%（300 次中 2 次）。把载荷拆分到单字符节点的 DOM 碎片化攻击能绕过边缘，但会被云端规划器重建（95% 的情况下），并在守卫处被拦下。

更宏观的教训是架构性的：在执行边界上的确定性强制，可以为概率性的语言模型兜底。随着浏览器智能体承担起有副作用的动作，「模型决定不去做」并不是一种控制 —— 「请求在离开设备之前就被拦截」才是。

防御

这篇论文本身就是一份防御蓝图，其结论可以推广到原型之外：

将控制平面与数据平面分离。 把智能体摄入的所有网页内容都视为不可信，不要让它重新定义用户的目标。这与站点隔离（Site Isolation）背后的本能一致，只是应用到了上下文窗口。
以确定性方式管控副作用。 在计划与动作之间放置一个不依赖模型的拦截器。将来源加入白名单，把 HTTP 动词约束到已声明的意图（只读任务绝不应发出 DELETE 或带参数的出站 GET），并对任何模糊情况失败即关闭。
在源头过滤表现层伎俩。 将渲染结果与原始 DOM 源进行比对，在不可见或移出屏幕的文本进入提示之前就将其剔除 —— 以低成本、在设备上、在任何云端调用之前完成。
不要把小型端侧模型当作语义裁判。 边缘层漏过了 86.9% 的语义越狱；它是一个快速的预过滤器，而非安全机制本身。把困难的情况上交给更强的模型。
为高风险或模糊的动作引入人工。 残余的失败来自「良性包装」攻击（2.0%），它们说服规划器进入许可模式，再加上对合法任务 1.7% 的误报率 —— 这两点都支持采用一个交互式确认步骤，而不是静默地放行或拦截。这与一个更广泛的争论相呼应：究竟是防火墙就够了，还是需要更强的基准测试。

现状

项目	参考	备注
论文	arXiv:2603.23791	Lan 与 Kaul，eBay 公司，2026 年 3 月 24 日
架构	认知防火墙 —— 哨兵 / 规划器 / 守卫	分离式计算，纵深防御，失败即关闭
边缘模型	Gemini Nano（Chrome 内置 AI）	~0.06 ms，拦截视觉混淆
云端模型	Llama 3 8B / GPT-4（原型）	安全分析师提示，语义检查
结果	攻击成功率 100% → 静态 0.88%，自适应 0.67%	N = 1000；约 99.1% 拦截
已知局限	基于图像的注入可绕过第一层；1.7% 误报；完整流水线延迟约 950 ms	原型，非真实流量

要点：浏览器智能体把代码与数据融合进单一的 token 流，因此语义检查将始终是概率性的，并且偶尔出错。认知防火墙的贡献在于不再把它当作最后一道防线 —— 而是在推理转化为真实动作的那个点上，放置一个确定性的、失败即关闭的守卫。

认知防火墙：面向浏览器智能体的分离式计算防御

这是什么？

工作原理

为何重要

防御

现状

Sources