RESEARCH MEDIUM NEW

智能体安全在于状态转换，而非组件本身

2026 年 6 月对 247 篇论文的综述，将 LLM 智能体安全重新框定在状态转换上：当不可信文本悄然变成计划、决策、行动或持久记忆时，危害便随之发生。

2026-06-16 // 7 min affects: llm-agents, multi-agent-systems, tool-using-agents, rag-agents

这是什么？

《Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation》（arXiv:2606.10749，2026 年 6 月发布）是一篇对 247 篇智能体安全论文的系统化综述，围绕一个系统层面的核心观点展开：LLM 智能体不是偶尔调用工具的聊天机器人，而是一个将信息流、被委派的权限与持久状态连接起来的循环。一旦模型置身于该循环中，故障便不再是「模型说了不安全的话」，而是被劫持的工作流、未经授权的工具调用、被污染的记忆，以及有害的外部行动。

语料本身也说明了这一领域的演进速度：2023 年仅 3 篇，2024 年 42 篇，2025 年骤升至 121 篇，到 2026 年 4 月底前又收集到 81 篇——约三分之一的成果出现在不到一年的时间里。其中大部分（约 68%）仍为 arXiv 预印本，作者将此视为该领域真实存在但尚未标准化的标志。

工作原理

该研究的核心贡献是一次重新框定，而非一个漏洞利用。它主张智能体安全应以状态转换而非孤立组件来分析。危险时刻并非智能体读取不可信文本之时，而是当该文本被允许在缺乏中介的情况下改变类别之时：

不可信内容被重新解释为一项规划约束；
暂定计划固化为一项可执行决策；
已存储的痕迹随后被当作可信上下文重复使用。

这一视角解释了为何智能体安全既不同于传统应用安全，也不同于仅限提示词的安全。问题不仅在于系统看到了什么，而在于因为看到了，系统现在被允许做什么。

实证的攻击面图谱印证了这一点。在语料中统计威胁面，用户提示词以 82 篇居首——但它只是诸多入口之一。网页内容出现在 55 篇中，工具输出在 54 篇，检索内容在 37 篇，而文件/代码、规划循环、记忆/草稿区以及智能体间通道各自至少出现在 25 篇中。直接提示词只占少数；占主导的是经过中介与内部化的控制路径。由此衍生出三条建模原则：数据—控制歧义（智能体消费与任务相关却不可信的文本）、被委派的权限（智能体以攻击者并不拥有的权限行事），以及持久与传播（危害被延迟，日后通过记忆或智能体间消息再度浮现）。

尤为关键的是，这并非某一团队的一家之言。微软 AI 红队基于针对已部署智能体的十二个月实战，于 2026 年 6 月 4 日发布了修订版的故障模式分类法，独立地命名了同一前沿：会话上下文污染、经跨域注入的记忆投毒、智能体间信任升级，以及将黑盒探测转化为白盒利用路径的能力泄露。两种迥异的方法——文献综述与实战红队——汇聚于同一结论。

为何重要

主要结论令人不安：提示词注入与经工具中介的控制流劫持仍占主导，而持久状态破坏与多智能体传播正在崛起——且当前防御可组合性薄弱。各项缓解措施单独有效，却无法干净地叠加成端到端的保证。微软的实战数据进一步印证了这一点：绕过人工介入（human-in-the-loop）是被最一致地利用的故障模式，有时表现为无点击链条——其中没有任何单一步骤显得异常，但复合结果却是数据外泄或横向移动。

该研究还对我们衡量进展的方式提出质疑。现有基准测试对长程、有状态且对部署敏感的风险代表性不足——而这恰恰是最重要的转换环节。一项在单轮注入测试中得分优异的防御，仍可能在污染被提前植入、并在多步之后跨越会话或委派链触发时失效。

防御

该研究的处方是架构性的，并可直接转化为当下即可采纳的控制措施：

使信任边界显式化。 按权限为每个通道打标签。网页内容、检索文档与工具输出都是低权限的观察数据，绝不可被悄然提升为指令。在结构上将可信的系统上下文与不可信的检索内容分隔开。
在行动层而非提示词层控制权限。 将能力检查置于工具执行这一转换点，并遵循最小权限原则。模型决定行动并不等于获得行动授权。
以来源溯源管理状态。 追踪记忆条目的来源；在回读时将智能体写入的记忆视为不可信。一次成功植入记忆的注入可传播到此后所有会话——因此要对持久化的内容进行净化与限界。
将人工介入加固为安全控制。 在审批前拆解复合动作；根据底层工具调用而非智能体自身描述来概括审批内容；按可逆性与影响范围对审批分级；并监测同意疲劳的模式。
验证智能体身份，而非推断身份。 在多智能体系统中，于交接处要求可证明的凭证；拒绝自我声称的角色。这可封堵智能体间信任升级的「混淆代理」路径。
在完整轨迹上评估。 测试长程、有状态的场景——提前植入污染并在下游度量——而不仅是单轮注入。（OWASP LLM01 仍是注入类问题的基准参考。）

状态

项目	详情
主要来源	《Toward Secure LLM Agents》（arXiv:2606.10749），2026 年 6 月，247 篇论文
佐证	微软 AI 红队故障模式分类法 v2.0，2026 年 6 月 4 日
主导威胁	提示词注入、经工具中介的控制流劫持
新兴前沿	持久状态破坏、多智能体传播
关键缺口	防御可组合性薄弱；基准测试忽视长程/有状态风险
性质	防御性系统化综述——无利用代码，无新型攻击

实践要义是一种思维模型，而非一个补丁。不要只问你的智能体是否会被诱导说出某些话，而要开始绘制系统中的转换——输入到计划、计划到决策、决策到行动、行动到存储记忆、记忆到下一个智能体。每一道箭头都是不可信数据可能越界进入权限之处。实验室与学界如今已达成共识：智能体安全的胜负，取决于守护这些箭头，而非仅仅加固模型本身。

智能体安全在于状态转换，而非组件本身

这是什么？

工作原理

为何重要

防御

状态

Sources