系统:运行中
← 返回所有攻击
RESEARCH MEDIUM NEW

MPBench:LLM 智能体记忆投毒的系统化分类法

2026 年 6 月 3 日的一篇 arXiv 研究梳理了四类记忆写入通道、九种结构性弱点和六类攻击,并证明现有提示注入防御无法覆盖记忆投毒。

2026-06-05 // 6 min affects: llm-agents, persistent-memory-agents, rag-pipelines

这是什么?

2026 年 6 月 3 日,五位研究者——Pritam Dash、Tongyu Ge、Aditi Jain、Tanmay Shah 与 Zhiwei Shang——在 arXiv(cs.CR/cs.AI)发布了 From Untrusted Input to Trusted Memory: A Systematic Study of Memory Poisoning Attacks in LLM Agents。这并非一种新攻击,而是一次系统化:论文把过去两年零散的记忆投毒研究成果整理成一套分类法,并交付了一个基准——MPBench——用于度量它。

记忆投毒指的是智能体把不可信输入当作可信的长期记忆来对待。论文的核心观点是:单次的对抗性写入即可对智能体此后的行为产生长期影响,远在植入它的那段对话结束之后依然有效。提示注入是对当前回合的一次性劫持,而记忆投毒则是跨会话持续存在的劫持。这是首次有人尝试系统地刻画这一攻击面,而非逐个漏洞地处理。

工作原理

论文沿三条轴线拆解问题。此处不复现任何 payload;权威参考是 arXiv PDF

轴 1 —— 写入通道(4)
  不可信内容如何进入持久记忆:
  - 被写入长期存储的对话回合
  - 作为「经验」回写的工具/检索输出
  - 将输入提炼为笔记的摘要或反思步骤
  - 由用户或智能体发起的显式记忆写入

轴 2 —— 结构性弱点(9)
  这些通道为何可被利用,归为:
  - 模型能力(无法可靠区分数据与指令)
  - system prompt 设计(存储项缺乏来源与信任标签)
  - 智能体架构(激进的写入/检索策略,无审查环节)

轴 3 —— 攻击类别(6)
  由「通道 × 弱点」矩阵推导出的六类投毒家族

对从业者而言,最重要的有两点。其一,越激进越危险:被调成更积极写入和检索记忆的智能体——正是让它们显得「聪明」且个性化的那套调校——在 MPBench 上表现得更易被利用。便利的旋钮也是风险的旋钮。其二,更尖锐:作者测试了现有的提示注入防御,发现它们无法覆盖记忆投毒。检查当前提示的过滤器,对几天前写入记忆、如今作为可信上下文被检索出来的恶意笔记无能为力。

这与社区已记录的攻击相呼应——例如 AgentPoison,它早在 2024 年就展示了对智能体记忆与知识库的投毒——也呼应我们此前关于 OWASP ASI06 类别潜伏记忆外泄记忆的时间性污染 的报道。2606.04329 所补上的,是把这些串联起来的「结缔组织」:一套共同的术语和一把度量的尺子。

为何重要

记忆如今是默认功能,而非实验室玩具。助手类产品内置持久记忆,智能体框架把「经验」回写进向量库,RAG 流水线模糊了「被检索的数据」与「指令」之间的界线。上述每一种,在论文意义上都是一条写入通道。

防御层面的含义令人不安。多数在 2025 年部署了输入侧提示注入过滤器的团队,都隐含地假定它能够推广。这篇论文证明并非如此。被投毒的记忆在被读取之时按其构造已属于可信——它早已越过过滤器本应把守的信任边界。该暴露在时间上也是不对称的:写入与触发可相隔数天或数个会话,从而击穿逐请求的监控,也使取证更为复杂,因为那条恶意回合可能已从日志中老化消失。

一套分类法加一个基准,正是这一领域所亟需。它们让团队得以提出具体的问题——我的智能体暴露了四类通道中的哪一类,我能在自家技术栈上复现六类攻击中的哪一类——而不是争论各种轶事。

防御

论文偏诊断而非开方,但其结构直接指向缓解措施。请把记忆当作不可信的输入边界,而非可信的缓存。

  1. 为每一个存储项标注来源。 给记忆条目打上来源(用户、工具输出、模型反思)与信任级别标签,绝不让源自工具或文档的笔记以与已核实指令同等的权威被检索出来。
  2. 过滤写入路径,而不仅是读取路径。 输入侧的提示注入过滤器无法推广到记忆;应在内容被写入持久存储的时刻加设独立检查,并在检索时再查一次。
  3. 默认让记忆写入尽可能不激进。 MPBench 的结论很明确:贪婪的写入/检索策略更易被利用。在持久化前要求相关性或审查阈值,存疑时优先使用临时上下文而非持久记忆。
  4. 为高影响写入加入人工或策略审查环节。 凡是能改变未来工具授权、凭据处理或支出决策的记忆,未经检查不得自写入。
  5. 保留并对记忆做版本管理以便取证。 由于写入与触发在时间上错开,应保留审计轨迹,记录每条条目由谁/由什么、在何时写入,以便事后追溯被投毒的笔记。参见我们关于 智能体审计轨迹完整性 的文章。
  6. 对自己的智能体做基准测试。 用 MPBench(或其方法论)枚举你的部署实际暴露了哪些写入通道与攻击类别,而非假定单一过滤器即可全覆盖。

现状

项目参考日期备注
arXiv 2606.04329 v1arXiv(cs.CR/cs.AI)2026-06-03已提交;系统化研究 + MPBench 基准
四类通道 / 九种弱点 / 六类攻击论文摘要2026-06-03横跨模型、提示、架构的分类法
「记忆越激进 ⇒ 越易被利用」论文发现2026-06-03在 MPBench 上测得
「提示注入防御无法覆盖记忆投毒」论文发现2026-06-03对现有部署的关键缺口
奠基性先行工作(AgentPoison)arXiv 2407.127842024更早的记忆/知识库投毒攻击

正确的结论不是「记忆投毒是新事物」——它并不新。而是这一领域终于有了一张共同的地图和一把尺。如果你的智能体拥有持久记忆,而你唯一的防御是输入侧过滤器,这篇论文就是有据可循的理由,让你假定自己并未被覆盖,并提供了一条结构化的途径去发现缺口所在。

本文出于防御与教育目的,对公开可得的研究进行综述,不复现任何利用代码。

Sources