智能体安全在于状态转换,而非组件本身
2026 年 6 月对 247 篇论文的综述,将 LLM 智能体安全重新框定在状态转换上:当不可信文本悄然变成计划、决策、行动或持久记忆时,危害便随之发生。
这是什么?
《Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation》(arXiv:2606.10749,2026 年 6 月发布)是一篇对 247 篇智能体安全论文的系统化综述,围绕一个系统层面的核心观点展开:LLM 智能体不是偶尔调用工具的聊天机器人,而是一个将信息流、被委派的权限与持久状态连接起来的循环。一旦模型置身于该循环中,故障便不再是「模型说了不安全的话」,而是被劫持的工作流、未经授权的工具调用、被污染的记忆,以及有害的外部行动。
语料本身也说明了这一领域的演进速度:2023 年仅 3 篇,2024 年 42 篇,2025 年骤升至 121 篇,到 2026 年 4 月底前又收集到 81 篇——约三分之一的成果出现在不到一年的时间里。其中大部分(约 68%)仍为 arXiv 预印本,作者将此视为该领域真实存在但尚未标准化的标志。
工作原理
该研究的核心贡献是一次重新框定,而非一个漏洞利用。它主张智能体安全应以状态转换而非孤立组件来分析。危险时刻并非智能体读取不可信文本之时,而是当该文本被允许在缺乏中介的情况下改变类别之时:
- 不可信内容被重新解释为一项规划约束;
- 暂定计划固化为一项可执行决策;
- 已存储的痕迹随后被当作可信上下文重复使用。
这一视角解释了为何智能体安全既不同于传统应用安全,也不同于仅限提示词的安全。问题不仅在于系统看到了什么,而在于因为看到了,系统现在被允许做什么。
实证的攻击面图谱印证了这一点。在语料中统计威胁面,用户提示词以 82 篇居首——但它只是诸多入口之一。网页内容出现在 55 篇中,工具输出在 54 篇,检索内容在 37 篇,而文件/代码、规划循环、记忆/草稿区以及智能体间通道各自至少出现在 25 篇中。直接提示词只占少数;占主导的是经过中介与内部化的控制路径。由此衍生出三条建模原则:数据—控制歧义(智能体消费与任务相关却不可信的文本)、被委派的权限(智能体以攻击者并不拥有的权限行事),以及持久与传播(危害被延迟,日后通过记忆或智能体间消息再度浮现)。
尤为关键的是,这并非某一团队的一家之言。微软 AI 红队基于针对已部署智能体的十二个月实战,于 2026 年 6 月 4 日发布了修订版的故障模式分类法,独立地命名了同一前沿:会话上下文污染、经跨域注入的记忆投毒、智能体间信任升级,以及将黑盒探测转化为白盒利用路径的能力泄露。两种迥异的方法——文献综述与实战红队——汇聚于同一结论。
为何重要
主要结论令人不安:提示词注入与经工具中介的控制流劫持仍占主导,而持久状态破坏与多智能体传播正在崛起——且当前防御可组合性薄弱。各项缓解措施单独有效,却无法干净地叠加成端到端的保证。微软的实战数据进一步印证了这一点:绕过人工介入(human-in-the-loop)是被最一致地利用的故障模式,有时表现为无点击链条——其中没有任何单一步骤显得异常,但复合结果却是数据外泄或横向移动。
该研究还对我们衡量进展的方式提出质疑。现有基准测试对长程、有状态且对部署敏感的风险代表性不足——而这恰恰是最重要的转换环节。一项在单轮注入测试中得分优异的防御,仍可能在污染被提前植入、并在多步之后跨越会话或委派链触发时失效。
防御
该研究的处方是架构性的,并可直接转化为当下即可采纳的控制措施:
- 使信任边界显式化。 按权限为每个通道打标签。网页内容、检索文档与工具输出都是低权限的观察数据,绝不可被悄然提升为指令。在结构上将可信的系统上下文与不可信的检索内容分隔开。
- 在行动层而非提示词层控制权限。 将能力检查置于工具执行这一转换点,并遵循最小权限原则。模型决定行动并不等于获得行动授权。
- 以来源溯源管理状态。 追踪记忆条目的来源;在回读时将智能体写入的记忆视为不可信。一次成功植入记忆的注入可传播到此后所有会话——因此要对持久化的内容进行净化与限界。
- 将人工介入加固为安全控制。 在审批前拆解复合动作;根据底层工具调用而非智能体自身描述来概括审批内容;按可逆性与影响范围对审批分级;并监测同意疲劳的模式。
- 验证智能体身份,而非推断身份。 在多智能体系统中,于交接处要求可证明的凭证;拒绝自我声称的角色。这可封堵智能体间信任升级的「混淆代理」路径。
- 在完整轨迹上评估。 测试长程、有状态的场景——提前植入污染并在下游度量——而不仅是单轮注入。(OWASP LLM01 仍是注入类问题的基准参考。)
状态
| 项目 | 详情 |
|---|---|
| 主要来源 | 《Toward Secure LLM Agents》(arXiv:2606.10749),2026 年 6 月,247 篇论文 |
| 佐证 | 微软 AI 红队故障模式分类法 v2.0,2026 年 6 月 4 日 |
| 主导威胁 | 提示词注入、经工具中介的控制流劫持 |
| 新兴前沿 | 持久状态破坏、多智能体传播 |
| 关键缺口 | 防御可组合性薄弱;基准测试忽视长程/有状态风险 |
| 性质 | 防御性系统化综述——无利用代码,无新型攻击 |
实践要义是一种思维模型,而非一个补丁。不要只问你的智能体是否会被诱导说出某些话,而要开始绘制系统中的转换——输入到计划、计划到决策、决策到行动、行动到存储记忆、记忆到下一个智能体。每一道箭头都是不可信数据可能越界进入权限之处。实验室与学界如今已达成共识:智能体安全的胜负,取决于守护这些箭头,而非仅仅加固模型本身。