LASM:用七层地图标出智能体攻击领先于防御的位置
一篇于 2026 年 5 月 6 日修订的 58 页综述,按层级与时间尺度重新整理了 116 篇论文中的智能体 AI 安全。该地图揭示了哪些地方已有攻击记录,却尚无对应的防御与基准测试。
这是什么?
2026 年 4 月 25 日,Kexin Chu 在 arXiv 上发布了一篇关于 LLM 智能体安全的系统性综述(2604.23338),并于 2026 年 5 月 6 日修订为 58 页的版本。这不是一种新攻击,而是对现有文献——2021 至 2026 年的 116 篇论文——的一次重新组织,围绕大多数分类法回避的一个问题展开:威胁究竟存在于智能体的哪个部位,又会在何种时间尺度上展开?
其贡献是 分层攻击面模型(Layered Attack Surface Model,LASM)。多数安全分类法,包括 OWASP LLM Top 10 与 MITRE ATLAS,按攻击类型归类威胁——提示注入、越狱、数据投毒。这对命名一起事件有用,却模糊了它在系统中的位置。LASM 改按结构归类,由此得到的地图暴露出一片片空白格——那些已有攻击记录、却没有防御的地方。
工作原理
LASM 是一个 7×4 的网格。纵轴将智能体技术栈分解为七层:
层级 此处包含
------------------------- ------------------------------------------------
Foundation 基础模型权重与训练管线
Cognitive 推理、规划、提示接口
Memory 跨轮次与跨会话的持久状态
Tool Execution 工具/函数调用、代码、外部副作用
Multi-Agent Coordination 智能体之间的委派与消息传递
Ecosystem 注册表、市场、MCP 服务器、插件
Governance 策略、审计、身份、访问控制
横轴是四类时间性——攻击显现所需的时长:
- 瞬时——在单次回复内完成(经典提示注入)。
- 会话持续——建立一次后,在本会话余下时间内保持活跃。
- 跨会话累积——在多个会话中缓慢累积(记忆投毒、语料缓慢漂移)。
- 会话内跨层传播——在一次运行内跨层扩散:工具结果改写记忆,记忆随后引导规划。
把 116 篇论文逐一标入这张 7×4 网格便是本实验。结果是一张关注度热力图。低层与短时间尺度——Cognitive 层、瞬时提示注入——拥挤不堪;而 高层(Ecosystem、Governance)以及长周期、跨层传播的格子则稀疏甚至空白。综述指出:多个有记录的攻击区域没有任何对应防御,而当前基准测试对跨会话或会话内跨层的失效模式毫无覆盖。
为何重要
价值在于”负空间”。一张只列出已被研究内容的网格不过是文献综述;LASM 在操作上的用处在于它让未被研究的格子变得可见。若你的威胁模型是”我们在输入边界处修补了提示注入”,LASM 会指出该边界只是 28 格攻击面中的一格,而对生产环境智能体最相关的格子——累积性记忆破坏、跨智能体委派滥用、注册表与市场的信任、治理绕过——恰恰是防御最薄弱的。
这与事件记录已经显示的情况吻合。记忆投毒与潜伏载荷攻击(Trojan Hippo、MemMorph)存在于 Memory 层、属跨会话尺度——正是综述标记为防御稀少、且基准测试缺席的区域。供应链与注册表攻击(skill.md 注册表、MCP 服务器信任)位于 Ecosystem 层,接近技术栈顶端,而那里的覆盖度骤降。综述把这些零散案例提升为一个结构性论断:防御投入集中在攻击容易演示的地方,而非攻击最难阻止的地方。
这篇综述是一张地图,不是补丁。它不衡量某个格子在你部署中的可利用程度,而稀疏的格子之所以稀疏,可能是因为威胁仍属理论,而非被人忽视。请把它当作覆盖度核查清单,而非严重性排名。
防御
LASM 本身就是一件防御工具。具体用法:
-
在网格上为自己的覆盖度打分。 取七层 × 四类时间性,诚实地标出当前控制措施触及哪些格子。多数团队会发现输入过滤与输出校验只覆盖 Cognitive/瞬时这一角,其余寥寥。空格就是你的待办清单。
-
优先投入长周期与跨层监测。 防御不足的区域是跨会话累积与会话内跨层。这要求采用横跨时间与组件的控制:记忆写入溯源、跨会话的记忆差分、以及追踪某个工具结果如何传播进后续规划——而不只是逐提示的扫描器。
-
采用 Agent Bill of Materials。 综述发布了一个参考性的 AgentBOM 模式——对智能体的模型、工具、记忆存储、子智能体与注册表的清单化。你无法防御自己尚未盘点的 Ecosystem 与 Governance 层。AgentBOM 与 OWASP 并行推进的 AI SBOM 工作相契合。
-
绘制你的基准测试地图,而不仅是攻击地图。 既然综述表明基准测试忽略了跨会话与跨层失效模式,一块仅建立在单轮评测之上的”全绿”仪表盘只是在衡量那拥挤的一角。请补上长周期与多智能体的测试用例,否则默认将那些格子视为未经测量。
-
用依赖关系 DAG 来分级。 论文将近期的工程缺口(现可着手)与基础研究难题(开放问题)区分开来。先把整改预算投向工程缺口;把研究性问题作为已接受的残余风险来跟踪,而不是假装已有相应控制。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| LASM 综述 v1 | arXiv:2604.23338 | 2026-04-25 | 初版 7×4 框架 |
| LASM 综述 v2 | arXiv:2604.23338v2 | 2026-05-06 | 58 页、8 图、15 表;编码 116 篇论文 |
| 发布的产物 | arXiv | 2026-05-06 | 逐篇编码、稳健性脚本、AgentBOM 模式 |
| OWASP LLM Top 10 | OWASP GenAI | 2025 | LASM 所补充的按攻击类型分类法 |
| MITRE ATLAS | MITRE | 持续 | 供交叉引用的技术目录 |
值得记住的定位:这篇论文并不是告诉你智能体不安全——这你早已知道。它告诉你灯光正照向房间的哪个角落,以及其余多大比例仍处于黑暗。对防御者而言,那些黑暗的格子,正是交付物。