RESEARCH MEDIUM NEW

LASM：用七层地图标出智能体攻击领先于防御的位置

一篇于 2026 年 5 月 6 日修订的 58 页综述，按层级与时间尺度重新整理了 116 篇论文中的智能体 AI 安全。该地图揭示了哪些地方已有攻击记录，却尚无对应的防御与基准测试。

2026-06-02 // 6 min affects: llm-agents, multi-agent-systems, rag-agents, tool-using-agents

这是什么？

2026 年 4 月 25 日，Kexin Chu 在 arXiv 上发布了一篇关于 LLM 智能体安全的系统性综述（2604.23338），并于 2026 年 5 月 6 日修订为 58 页的版本。这不是一种新攻击，而是对现有文献——2021 至 2026 年的 116 篇论文——的一次重新组织，围绕大多数分类法回避的一个问题展开：威胁究竟存在于智能体的哪个部位，又会在何种时间尺度上展开？

其贡献是 分层攻击面模型（Layered Attack Surface Model，LASM）。多数安全分类法，包括 OWASP LLM Top 10 与 MITRE ATLAS，按攻击类型归类威胁——提示注入、越狱、数据投毒。这对命名一起事件有用，却模糊了它在系统中的位置。LASM 改按结构归类，由此得到的地图暴露出一片片空白格——那些已有攻击记录、却没有防御的地方。

工作原理

LASM 是一个 7×4 的网格。纵轴将智能体技术栈分解为七层：

层级                       此处包含
-------------------------  ------------------------------------------------
Foundation                 基础模型权重与训练管线
Cognitive                  推理、规划、提示接口
Memory                     跨轮次与跨会话的持久状态
Tool Execution             工具/函数调用、代码、外部副作用
Multi-Agent Coordination   智能体之间的委派与消息传递
Ecosystem                  注册表、市场、MCP 服务器、插件
Governance                 策略、审计、身份、访问控制

横轴是四类时间性——攻击显现所需的时长：

瞬时——在单次回复内完成（经典提示注入）。
会话持续——建立一次后，在本会话余下时间内保持活跃。
跨会话累积——在多个会话中缓慢累积（记忆投毒、语料缓慢漂移）。
会话内跨层传播——在一次运行内跨层扩散：工具结果改写记忆，记忆随后引导规划。

把 116 篇论文逐一标入这张 7×4 网格便是本实验。结果是一张关注度热力图。低层与短时间尺度——Cognitive 层、瞬时提示注入——拥挤不堪；而 高层（Ecosystem、Governance）以及长周期、跨层传播的格子则稀疏甚至空白。综述指出：多个有记录的攻击区域没有任何对应防御，而当前基准测试对跨会话或会话内跨层的失效模式毫无覆盖。

为何重要

价值在于”负空间”。一张只列出已被研究内容的网格不过是文献综述；LASM 在操作上的用处在于它让未被研究的格子变得可见。若你的威胁模型是”我们在输入边界处修补了提示注入”，LASM 会指出该边界只是 28 格攻击面中的一格，而对生产环境智能体最相关的格子——累积性记忆破坏、跨智能体委派滥用、注册表与市场的信任、治理绕过——恰恰是防御最薄弱的。

这与事件记录已经显示的情况吻合。记忆投毒与潜伏载荷攻击（Trojan Hippo、MemMorph）存在于 Memory 层、属跨会话尺度——正是综述标记为防御稀少、且基准测试缺席的区域。供应链与注册表攻击（skill.md 注册表、MCP 服务器信任）位于 Ecosystem 层，接近技术栈顶端，而那里的覆盖度骤降。综述把这些零散案例提升为一个结构性论断：防御投入集中在攻击容易演示的地方，而非攻击最难阻止的地方。

这篇综述是一张地图，不是补丁。它不衡量某个格子在你部署中的可利用程度，而稀疏的格子之所以稀疏，可能是因为威胁仍属理论，而非被人忽视。请把它当作覆盖度核查清单，而非严重性排名。

防御

LASM 本身就是一件防御工具。具体用法：

在网格上为自己的覆盖度打分。 取七层 × 四类时间性，诚实地标出当前控制措施触及哪些格子。多数团队会发现输入过滤与输出校验只覆盖 Cognitive／瞬时这一角，其余寥寥。空格就是你的待办清单。
优先投入长周期与跨层监测。 防御不足的区域是跨会话累积与会话内跨层。这要求采用横跨时间与组件的控制：记忆写入溯源、跨会话的记忆差分、以及追踪某个工具结果如何传播进后续规划——而不只是逐提示的扫描器。
采用 Agent Bill of Materials。 综述发布了一个参考性的 AgentBOM 模式——对智能体的模型、工具、记忆存储、子智能体与注册表的清单化。你无法防御自己尚未盘点的 Ecosystem 与 Governance 层。AgentBOM 与 OWASP 并行推进的 AI SBOM 工作相契合。
绘制你的基准测试地图，而不仅是攻击地图。 既然综述表明基准测试忽略了跨会话与跨层失效模式，一块仅建立在单轮评测之上的”全绿”仪表盘只是在衡量那拥挤的一角。请补上长周期与多智能体的测试用例，否则默认将那些格子视为未经测量。
用依赖关系 DAG 来分级。 论文将近期的工程缺口（现可着手）与基础研究难题（开放问题）区分开来。先把整改预算投向工程缺口；把研究性问题作为已接受的残余风险来跟踪，而不是假装已有相应控制。

状态

项目	参考	日期	备注
LASM 综述 v1	arXiv:2604.23338	2026-04-25	初版 7×4 框架
LASM 综述 v2	arXiv:2604.23338v2	2026-05-06	58 页、8 图、15 表；编码 116 篇论文
发布的产物	arXiv	2026-05-06	逐篇编码、稳健性脚本、AgentBOM 模式
OWASP LLM Top 10	OWASP GenAI	2025	LASM 所补充的按攻击类型分类法
MITRE ATLAS	MITRE	持续	供交叉引用的技术目录

值得记住的定位：这篇论文并不是告诉你智能体不安全——这你早已知道。它告诉你灯光正照向房间的哪个角落，以及其余多大比例仍处于黑暗。对防御者而言，那些黑暗的格子，正是交付物。

LASM：用七层地图标出智能体攻击领先于防御的位置

这是什么？

工作原理

为何重要

防御

状态

Sources