INDIRECT INJECTION MEDIUM NEW

本地部署并不更安全：间接注入对本地与云端 LLM 一视同仁

Brave 于 2026 年 6 月 8 日的研究表明，间接提示注入对云端代理（Mozilla Tabstack）和本地自动补全（Cotypist）同样有效——本地托管并非缓解措施。

2026-06-19 // 5 min affects: mozilla-tabstack, cotypist, llm-browser-agents, on-device-llm

这是什么？

2026 年 6 月 8 日，Brave 的安全与隐私研究团队（Ali Shahin Shamsabadi、Hamed Haddadi 和 Artem Chaikin）发布了 Indirect Prompt Injection remains a fundamental security challenge for AI，披露了位于部署谱系两端的两款产品中存在同一类缺陷：Mozilla Tabstack，一个面向 AI 代理的云端网页执行 API；以及 Cotypist，一款完全在 macOS 设备本地运行的自动补全助手。两者均在公开披露前按负责任披露流程通知；Tabstack 于 2026 年 6 月 1 日 确认修复，并由 Brave 独立验证。

重点在于二者的对比，而非单个漏洞本身。间接提示注入——把指令藏入模型被正当要求读取的内容中——通常被视为云端与开放网络的问题，本地模型似可规避。Brave 的发现是：本地模型同样被劫持。该漏洞与模型在何处运行无关。

工作原理

间接注入之所以成立，是因为集成 LLM 的系统会在同一个上下文窗口中，把可信指令（开发者/用户）与不可信的外部数据组合在一起，却没有可靠机制来保持二者之间的边界。攻击者从不触碰提示界面；载荷藏在系统随后会摄取的网页、文档或工具结果中。

在云端案例中，Brave 向 Tabstack 的自动化端点下达了一个再普通不过的任务——总结此页面——而该页面由其控制。页面携带的指令以不可见文本（白底白字／零宽字符）写成：存在于文本层中，对人类不可见。代理从未总结页面，而是依次执行了隐藏步骤——导航到攻击者控制的表单，用用户的提示词和完整对话历史填充表单，然后提交，从而外泄这些数据。其自身的推理轨迹显示，它将页面指令视为任务的合法延续；从未提示冲突，也未请求确认。此处不复现任何可利用载荷——重点在机制。

在本地案例中，嵌入本地文档的指令将 Cotypist 的自动补全引向攻击者选定的内容，并有可能在补全中暴露用户的凭据。其影响半径较小：系统级自动补全无法采取自主行动，其「Tab 接受」设计在被注入的补全与其实现之间始终保留了一次人类按键。云端代理塑造模型所做之事；本地助手塑造模型所说之话。后果不同——结构性失效相同。

这与 Brave 于 2025 年 8 月首次针对 Perplexity Comet 演示的模式如出一辙：当时藏在 Reddit 评论中的文本驱动代理跨越已认证会话，外泄了一个邮箱地址和一次性验证码。一年之后，这一教训如今也延伸到了本地部署。

为何重要

对从业者的要点是重新表述问题。正确的问题不是「该系统是否使用云端 API？」，而是 「该系统是否在共享上下文窗口中，把可信指令与不可信内容组合在一起？」。若答案为是，它就承载着间接注入风险——风险的形式取决于架构，但其存在与否则不取决于此。

这一点很重要，因为「我们在本地运行模型」越来越多地被当作安全与隐私的保证。面对这一威胁模型，它并不是。更小的本地模型往往更难区分恶意指令与可信指令，而非更易。本地托管改变了攻击者的入口（本地文件而非开放网络）和影响半径（模型所说 vs 模型自主所做），但并未堵住漏洞。值得注意的是，Tabstack 的自动化端点提供了一个自然语言护栏参数，默认未启用——因此常规配置正是脆弱配置。

防御

Brave 将缓解措施定位为纵深防御，并辅以系统级的安全设计。具体控制项，与其 Comet 研究中的建议一致：

分离指令与数据，并对模型输出保持戒心。 将页面/文档内容作为明确不可信、与用户请求相区分的输入传入；并将模型提出的动作视为潜在不安全，而非已授权命令。
检查动作与用户意图的一致性。 在执行前独立核验每个提议动作是否符合用户的真实请求，而不是因为计划由模型生成就假定其无害。
敏感动作须有显式人工交互。 导航至已认证域名、提交表单、对外发送数据、发送邮件——无论先前计划如何，都要在动作执行前要求用户有意识地确认。
隔离代理模式并实施最小权限。 不要让普通浏览滑入拥有完整权限的代理。将代理可达的工具、域名和数据限定于当前任务；仅做总结的助手无需访问凭据或跨站点访问。
不要把本地托管或可选护栏当作控制手段。 设备端部署不能替代这些边界，默认关闭的护栏谁也保护不了。应默认施加结构性分离、最小权限和信息流控制。

状态

产品	托管方式	注入途径	影响	披露	状态
Mozilla Tabstack	云端（`/v1/automate`）	网页上的不可见文本	对话历史外泄至攻击者表单	2026-05-13	已于 2026-06-01 修复（已验证）
Cotypist	设备端（macOS）	本地文档中的文本	自动补全被操纵；存在凭据泄露风险	2026-06-01	厂商于 2026-06-02 确认

这两项发现都强化了防御者必须内化的同一要点：间接提示注入是当前 LLM 架构固有的上下文组合问题，无法仅靠改变模型运行的位置来彻底解决。补丁关闭的是个例；真正能削减这一类问题的，是上述结构性控制。

本地部署并不更安全：间接注入对本地与云端 LLM 一视同仁

这是什么？

工作原理

为何重要

防御

状态

Sources