僵尸智能体:自演化 LLM 智能体如何在多会话间持续被控
在一次无害会话中被观察到的一次性间接注入,可被写入智能体的长期记忆,并在日后作为指令重放,从而把短暂的提示词变为持久的控制。攻击论文为 2026 年 2 月,防御方案(CAMS)为 2026 年 5 月。
这是什么?
“自演化”智能体是指在会话之间更新自身内部状态的 LLM 智能体:它们将摘要、成功轨迹、用户偏好或检索到的事实写入长期记忆,并在后续运行时重新读取。论文 Zombie Agents(arXiv,2026 年 2 月)研究了这种设计特有的一类失效模式。攻击者只要控制智能体在一次普通会话中仅仅“观察”到的不可信内容——一个网页、一份文档、一次工具返回结果——便可让有害载荷被写入该记忆,并在未来会话中被当作可信指令对待。其结果就是持久化:一次性的注入演变为持久、无需干预的控制。作者将被攻陷的智能体称为“僵尸”。
这一点是结构性的,而非单个产品漏洞。它推广了此前的观察(如 MINJA,arXiv 2026 年 3 月):基于记忆的智能体可以通过正常的用户交互、无需提权即被操纵;并将其延伸到那些随时间改写自身状态的智能体。
工作原理
整个链条分为三个阶段,此处均基于公开研究的论述框架,不涉及任何可用的漏洞利用代码:
- 摄入。 在一次无害任务中,智能体处理由攻击者控制的外部内容。由于自演化智能体会持久化其所见——观察、“成功经验”、提炼的笔记——其中部分内容被写入长期记忆。
- 升格为指令。 在日后的会话中,记忆检索器将存储的条目作为相关上下文调出。智能体没有可靠的边界来标记它是“被观察的数据”而非“需要执行的指令”,因此可能据此行动。这正是数据与指令的根本性混淆,只是在时间上被推迟了。
- 自我强化。 该论文的贡献在于表明:载荷可被设计为能够经受常见的记忆清理——截断、相关性过滤、摘要——甚至在每次触发时把自身重新写回记忆,从而使攻陷状态比创造它的那次会话存活得更久。
判断时效性的关键日期:攻击论述为 2026 年 2 月;仅凭查询即可注入记忆的前置工作(MINJA)为 2026 年 3 月;针对基于记忆的智能体的专门攻防研究为 2026 年 1 月(arXiv 2601.05504)。本文不复现任何载荷。
为何重要
大多数提示词注入防御都是按会话进行的:它们过滤当前的输入或输出。这一类攻击正是为击败该假设而设计。如果恶意指令潜伏在记忆中、仅在日后的触发条件下激活,那么运行时一个干净的输入过滤器将看不出任何异常。影响半径随自主性和记忆持久性而扩大:长时间运行的助手、累积用户历史的智能体,以及一个用户被污染的记忆可能影响另一个用户的多用户部署,都是暴露最严重的对象。在受监管领域——CAMS 作者以电子病历智能体为例——持久而隐蔽的行为漂移是严重的完整性与机密性问题。
防御
防御持久化意味着把记忆存储视为不可信、与安全相关的边界,而非便利的缓存。Cognitive Autonomous Memory Security(CAMS)框架(ScienceDirect,2026 年 5 月)提出了一个五层中间件,无需改动底层模型;即便你自行构建防御,它也是一份有用的清单:
- 写入时把关。 对进入长期记忆的一切内容,在写入之前施加“WriteGuard”流水线与语义意图筛查——这是阻止注入指令被摄入的最低成本环节。
- 来源与零信任存储。 为每条记忆的来源保留防篡改记录,使被观察到的外部内容永远不会被悄然升格为可信指令。
- 时间漂移监控。 监测嵌入漂移与序列演变,以发现任何单点检查都会漏掉的缓慢、渐进式投毒。
- 跨记忆/图谱重建。 关联相关条目,检测分散在多个存储项或多个用户之间的攻击。
- 周期性重扫描。 部署长期记忆扫描器,重新评估已存储的记忆,因为某一条目可能要到日后在特定上下文中才变得恶意。
补充性的工程控制:在模式层面分离“智能体看到了什么”与“智能体应当做什么”;按用户与信任级别隔离记忆;对源自检索记忆的高影响操作要求人工确认;并运用“致命三要素”逻辑——当智能体同时具备持久记忆、对不可信内容的暴露以及行动或外泄能力时,应保持最高警惕。
现状
这是关于自演化与基于记忆的智能体一类弱点的已发表学术研究,而非某个具名产品中的漏洞;文中不披露任何可利用的载荷。攻击分析(Zombie Agents)为 2026 年 2 月;记忆注入的奠基性工作(MINJA)为 2026 年 3 月;CAMS 防御为 2026 年 5 月——使最新来源落在最近约 90 天之内。构建基于记忆的智能体的开发者应当认为:按会话的输入过滤是必要的,但并不充分,还需在记忆本身之上增加写入把关、来源追踪与漂移监控。