SecureClaw:面向工具型 LLM 智能体的双边界防御
2026 年 6 月的一篇论文提出同时守护两条不同的边界——在效果汇点授权外部动作、在读取边界对明文进行隔离——在一个智能体基准上报告了 0% 的攻击成功率。
这是什么?
2026 年 6 月 8 日,Yuhan Ma 与 Stefan Schmid 发表了 SecureClaw: Clawing Back Control of LLM Agents(arXiv:2606.09549),这是一种面向具备工具调用能力的 LLM 智能体的防御架构。其出发点是:一个工具型智能体可能以两种不同的方式失败,而大多数现有防御只覆盖其中一种。
第一种失败是未经授权的外部动作:智能体在被注入文本操纵后,发送邮件、执行付款,或写入其本不应触碰的外部系统。第二种是运行时内部的明文暴露:某个机密(API 密钥、私有记录)被读入模型上下文,在任何输出过滤器有机会介入之前,就可能通过最终回答泄露,或被转发给另一个组件。
这一点很重要,因为正如 OWASP 2026 年 6 月的报告 State of Agentic AI Security and Governance 所记录的,提示注入如今已对应到《智能体应用 Top 10》十类风险中的六类,且相关事件不再是假设。SecureClaw 试图在架构层面(而非提示层面)同时封闭这两条边界。
工作原理
作者将 SecureClaw 描述为一种双边界架构,在上述两个失败面各设置一道控制。
在读取边界,敏感读取须经过一个可信网关。网关不会把原始机密交给模型,而是用一个不透明句柄(opaque handle)替代它——这是一个智能体可以携带并传给工具、但自身无法读取的引用。在所评估的部署中,网关还可返回一个有界摘要作为显式的解密接口:对数据提供受控、有限的视图,而非完整明文。模型在句柄与摘要之上做规划,绝不直接解引用机密。
在效果汇点,任何改变外部状态的写操作都遵循 PREVIEW → COMMIT(预览 → 提交)协议。智能体提议一个动作并看到预览,但只有可信执行器才能提交,且它提交的正是策略所授权的规范化请求,而非模型自行拼装的内容。副作用由该执行器把关,而非由规划器直接触发。
不可信规划器 (LLM)
|
仅在句柄 + 摘要之上做规划
|
读取边界 ┌──────────┴──────────┐ 效果汇点
可信网关 │ 机密 → 句柄 │ PREVIEW → COMMIT
│ + 有界摘要 │ 可信执行器
│ │ 提交被授权的
└──────────────────────┘ 规范化请求
这一原则与 2025 年 6 月更广泛的工作 Design Patterns for Securing LLM Agents 一致:不是让模型对恶意文本免疫,而是约束一个已被攻陷的模型能够做什么。SecureClaw 的贡献在于在同一框架内同时在数据读取侧与动作写入侧实现这一约束。
本文不复现任何利用载荷;对防御者而言,价值在于边界的放置,而非某条具体的注入字符串。
为何重要
论文在三个公开的智能体安全基准上报告了结果——AgentDojo、AgentLeak 与 Agent Security Bench (ASB)。在作者的统一评测框架中,SecureClaw 在 ASB 上达到 0% 的攻击成功率、在 AgentDojo 上为 0.64%、在 AgentLeak 的「attacked parity」赛道上整体泄露为 3.23%,同时仍保持可用的任务性能。这些是作者在其自有装置上的数据,应视为单篇论文的有希望结果,而非经独立复现的保证——但其方向才是关键。
这种表述之所以有用,是因为它正好对应威胁数据。Simon Willison 的「致命三要素」(私有数据 + 不可信内容 + 对外通信)与 Meta 的「Agents Rule of Two」表达的是同一件事:一个既能读取机密、又能对外行动、还会被不可信文本操纵的智能体,单凭一条注入提示即可被利用。SecureClaw 从结构上攻击了该三脚架的两条腿——机密绝不会以可用形式抵达规划器,外部动作也绝不会在没有可信提交的情况下触发。这就是为什么只守护一条边界(如许多基于输出过滤或规划器加固的防御)会使另一个面敞开。
防御措施
如果你在构建或运行工具型智能体,可落地的要点并不要求采用这篇具体论文:
- 将「读取机密」与「使用机密」分离。 给智能体一个不透明句柄或有界摘要,而非明文。模型应能在从不把凭据或数据放入上下文的情况下引用它们;注入无法窃取从未可读的内容。
- 让每个改变状态的动作经由可信执行器把关。 采用「先预览后提交」的流程,由非 LLM 组件只提交经策略批准的精确请求。绝不让规划器的自由输出直接触发副作用。
- 同时防御两条边界,而非一条。 仅靠输出过滤无法阻止内部转发泄露;仅靠规划器加固无法阻止未授权写入。对照两种失败模式审视你的智能体,确认每一种都有对应控制。
- 把 Rule of Two 当作预算来用。 当一个智能体在无人介入的情况下同时具备私有数据访问、不可信输入与对外通信时,应将其视为需要最强结构性隔离——或需人工批准——的情形。
- 用对抗性基准验证。 用 AgentDojo、ASB 等套件测试候选防御,同时关注攻击成功率与泄露指标,而不仅是任务效用,再决定是否在生产中信任某项配置。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| SecureClaw 论文 | arXiv:2606.09549 | 2026-06-08 | 双边界架构;v1 |
| 报告的结果 | arXiv:2606.09549 | 2026-06-08 | 0% ASR (ASB)、0.64% ASR (AgentDojo)、3.23% 泄露 (AgentLeak)——作者装置 |
| Design Patterns for Securing LLM Agents | arXiv:2506.08837 | 2025-06-10 | 相关的「约束智能体」防御思路 |
| OWASP State of Agentic AI Security 2026 | Help Net Security | 2026-06-11 | 提示注入覆盖 10 类智能体风险中的 6 类 |
诚实的表述并不是「提示注入已被解决」。而是最可信的防御正从「让模型拒绝坏指令」转向「确保一个已被攻陷的模型既读不到不该读的、也做不了不该做的」。SecureClaw 是这一转变的一个新鲜而具体的范例——如果你运行的智能体同时触及机密与外部世界,值得一读。