AGENTS MEDIUM NEW

僵尸智能体：自演化 LLM 智能体如何在多会话间持续被控

在一次无害会话中被观察到的一次性间接注入，可被写入智能体的长期记忆，并在日后作为指令重放，从而把短暂的提示词变为持久的控制。攻击论文为 2026 年 2 月，防御方案（CAMS）为 2026 年 5 月。

2026-06-18 // 7 min affects: llm-agents, self-evolving-agents, memory-based-agents, rag-agents

这是什么？

“自演化”智能体是指在会话之间更新自身内部状态的 LLM 智能体：它们将摘要、成功轨迹、用户偏好或检索到的事实写入长期记忆，并在后续运行时重新读取。论文 Zombie Agents（arXiv，2026 年 2 月）研究了这种设计特有的一类失效模式。攻击者只要控制智能体在一次普通会话中仅仅“观察”到的不可信内容——一个网页、一份文档、一次工具返回结果——便可让有害载荷被写入该记忆，并在未来会话中被当作可信指令对待。其结果就是持久化：一次性的注入演变为持久、无需干预的控制。作者将被攻陷的智能体称为“僵尸”。

这一点是结构性的，而非单个产品漏洞。它推广了此前的观察（如 MINJA，arXiv 2026 年 3 月）：基于记忆的智能体可以通过正常的用户交互、无需提权即被操纵；并将其延伸到那些随时间改写自身状态的智能体。

工作原理

整个链条分为三个阶段，此处均基于公开研究的论述框架，不涉及任何可用的漏洞利用代码：

摄入。 在一次无害任务中，智能体处理由攻击者控制的外部内容。由于自演化智能体会持久化其所见——观察、“成功经验”、提炼的笔记——其中部分内容被写入长期记忆。
升格为指令。 在日后的会话中，记忆检索器将存储的条目作为相关上下文调出。智能体没有可靠的边界来标记它是“被观察的数据”而非“需要执行的指令”，因此可能据此行动。这正是数据与指令的根本性混淆，只是在时间上被推迟了。
自我强化。 该论文的贡献在于表明：载荷可被设计为能够经受常见的记忆清理——截断、相关性过滤、摘要——甚至在每次触发时把自身重新写回记忆，从而使攻陷状态比创造它的那次会话存活得更久。

判断时效性的关键日期：攻击论述为 2026 年 2 月；仅凭查询即可注入记忆的前置工作（MINJA）为 2026 年 3 月；针对基于记忆的智能体的专门攻防研究为 2026 年 1 月（arXiv 2601.05504）。本文不复现任何载荷。

为何重要

大多数提示词注入防御都是按会话进行的：它们过滤当前的输入或输出。这一类攻击正是为击败该假设而设计。如果恶意指令潜伏在记忆中、仅在日后的触发条件下激活，那么运行时一个干净的输入过滤器将看不出任何异常。影响半径随自主性和记忆持久性而扩大：长时间运行的助手、累积用户历史的智能体，以及一个用户被污染的记忆可能影响另一个用户的多用户部署，都是暴露最严重的对象。在受监管领域——CAMS 作者以电子病历智能体为例——持久而隐蔽的行为漂移是严重的完整性与机密性问题。

防御

防御持久化意味着把记忆存储视为不可信、与安全相关的边界，而非便利的缓存。Cognitive Autonomous Memory Security（CAMS）框架（ScienceDirect，2026 年 5 月）提出了一个五层中间件，无需改动底层模型；即便你自行构建防御，它也是一份有用的清单：

写入时把关。 对进入长期记忆的一切内容，在写入之前施加“WriteGuard”流水线与语义意图筛查——这是阻止注入指令被摄入的最低成本环节。
来源与零信任存储。 为每条记忆的来源保留防篡改记录，使被观察到的外部内容永远不会被悄然升格为可信指令。
时间漂移监控。 监测嵌入漂移与序列演变，以发现任何单点检查都会漏掉的缓慢、渐进式投毒。
跨记忆／图谱重建。 关联相关条目，检测分散在多个存储项或多个用户之间的攻击。
周期性重扫描。 部署长期记忆扫描器，重新评估已存储的记忆，因为某一条目可能要到日后在特定上下文中才变得恶意。

补充性的工程控制：在模式层面分离“智能体看到了什么”与“智能体应当做什么”；按用户与信任级别隔离记忆；对源自检索记忆的高影响操作要求人工确认；并运用“致命三要素”逻辑——当智能体同时具备持久记忆、对不可信内容的暴露以及行动或外泄能力时，应保持最高警惕。

现状

这是关于自演化与基于记忆的智能体一类弱点的已发表学术研究，而非某个具名产品中的漏洞；文中不披露任何可利用的载荷。攻击分析（Zombie Agents）为 2026 年 2 月；记忆注入的奠基性工作（MINJA）为 2026 年 3 月；CAMS 防御为 2026 年 5 月——使最新来源落在最近约 90 天之内。构建基于记忆的智能体的开发者应当认为：按会话的输入过滤是必要的，但并不充分，还需在记忆本身之上增加写入把关、来源追踪与漂移监控。

僵尸智能体：自演化 LLM 智能体如何在多会话间持续被控

这是什么？

工作原理

为何重要

防御

现状

Sources