为什么 LLM 智能体的防御无法叠加:来自 247 篇论文的启示
2026 年 6 月一项覆盖 247 篇论文的系统综述发现,智能体防御是有用的构件,但可组合性很弱,而现有基准仍然忽视持久状态与长程风险。
这是什么?
《Toward Secure LLM Agents: Threat Surfaces, Attacks, Defenses, and Evaluation》(arXiv 2606.10749,2026 年 6 月发布,投稿至 ACM TOSEM)是一篇系统性文献综述,覆盖 2023 年 1 月 1 日至 2026 年 4 月 27 日之间发表的 247 篇 LLM 智能体安全论文。它没有逐一罗列攻击,而是构建了一个面向系统的统一智能体模型,并提出四个问题:应如何对智能体安全进行建模、哪些威胁面占主导、存在哪些防御以及代价如何,以及安全主张在实践中是如何被评估的。
其核心结论既令人警醒又十分有用:该领域已经产出了许多可信的单点防御,但它们的可组合性依然很弱——把它们堆叠在一起并不能可靠地构成一个安全的系统——而当前的基准严重低估了长程、带持久状态以及对部署敏感的风险。这篇综述是对公开研究的归纳,而非一种新攻击,因此对防御方而言是一面干净的镜子。
工作原理
作者将智能体建模为对七个要素的循环:A = ⟨I, P, D, T, M, O, C⟩——输入与观测(Input)、规划(Planning)、对某一动作的决策/提交(Decision)、工具或环境执行(Tool)、记忆或持久状态(Memory)、对外输出与副作用(Outputs),以及与人类、监控器或对等智能体的协调(Coordination)。与安全相关的行为并非来自任何单一要素,而是来自它们之间的流动:进入 I 的低权限内容可以扭曲规划 P、改变已提交的决策 D、触发特权工具调用 T、毒化状态 M,或经由 C 传播到其他智能体。
这一框架把智能体安全重新带回系统安全的经典概念——信任边界、中介、能力控制、来源溯源与隔离遏制——并解释了为何”诱导模型说出危险内容”的视角过于狭窄。按照这一循环对语料进行编码后,综述指出了研究的集中之处:工具使用安全(156 篇)、运行时防御(88 篇)、提示注入安全(75 篇)、多智能体安全(63 篇)和记忆安全(32 篇),其中规划作为生命周期阶段在 227 篇论文中被涉及。文献本身增长迅速——2023 年 3 篇,2024 年 42 篇,2025 年 121 篇,到 2026 年 4 月底已收集 81 篇。
为何重要
两项结构性发现应当改变团队对智能体风险的思考方式。首先,防御无法干净地叠加。提示注入过滤器、输出护栏和工具白名单各自封堵了循环的一部分,但综述几乎找不到证据表明将它们组合就能得到可预测的端到端安全——缺口会在输入处理、规划与执行之间的接缝处重新出现。把”我们加了三道护栏”等同于”我们很安全”,正是该文所警告的假设。
其次,评估落后于部署。多数基准仍在有界、单轮的环境中衡量即时攻击成功率,而真正在生产中造成伤害的风险——跨会话存续的记忆污染、特权滥用、在多智能体工作流中传播的恶意指令——恰恰是最缺乏度量的。多智能体设置在语料中仍属少数(247 篇中有 47 篇,约 19%),尽管其在近期工作中的占比正从 2024 年论文的约 10% 上升到 2025 年的二十出头。换言之,对真实部署最重要的那部分领域,恰恰是证据基础最不成熟的部分。
防御
综述的规范性章节是其最具可操作性的产出。它主张安全的智能体需要四个要素协同工作,而非各自孤立:
- **显式的信任边界。**按权限对每个信息来源(系统提示、用户回合、工具输出、检索到的文档、对等智能体的消息)进行标注与区别处理,并设计循环,使得
I中的低权限内容无法悄然变成P或D中的指令。 - **有原则的特权控制。**按任务限制工具执行
T能做什么——最小权限、范围受限的凭据、对有后果的动作要求人工确认——使被劫持的决策无法触及高影响能力。 - **来源感知的状态管理。**追踪记忆
M中条目的来源并在读取时进行校验,因为持久状态污染正是该文标记为防御不足的新兴风险类别。 - **贴近现实且可组合的评估。**在长程范围、带持久状态与多智能体场景下测试整个循环,并同时衡量安全性与效用、时延和成本——而不仅是单轮攻击成功率。
实践要点:面向智能体的纵深防御只有在你对各层之间的接缝进行推理、并且评估能复现智能体在生产中将面对的持久状态与长程条件时,才会真正奏效。
现状
这是经评审渠道的学术研究(投稿至 ACM TOSEM 的一篇系统综述),并非某个具名产品中的漏洞,因此没有补丁或 CVE 与之关联。关键日期:arXiv 预印本于 2026 年 6 月发布(arXiv 2606.10749),覆盖至 2026 年 4 月 27 日的文献。作者的定位即为可操作的要点——智能体安全是一个系统问题,而开放的挑战在于让防御与评估围绕完整的智能体循环进行组合,而非围绕孤立的攻击。