所有攻击 (375)
LLM 攻击、越狱和防御的开放数据库。每日更新。
角色混淆:为什么大模型会服从「听起来有权威」的文本
MIT 的一篇 ICML 2026 新论文提出,提示注入的本质是「角色混淆」:模型根据文本的风格、而非来源来判断「谁在说话」。伪造的推理文本使攻击成功率达到约 60%,而一处对人几乎不可见的改写就把它降到了 10%。
自动化提示注入因模型而异:TAP 胜过 GCG,GPT-5 抵御住了
苏黎世联邦理工学院 2026 年 6 月 9 日的研究将 GCG 与 TAP 适配到 AgentDojo,覆盖 80 对智能体任务。黑盒 TAP 胜过基于梯度的 GCG,但在小模型上调优的攻击无法迁移到 GPT-5。
DifyTap:四个授权缺陷致 Dify 租户间 AI 对话泄露
Zafran Labs 于 2026 年 6 月 22 日披露 Dify 中的四个 DifyTap 缺陷——两个严重、两个无需认证、三个具有跨租户影响——攻击者可窃听其他客户的 AI 对话并读取其文件。其中三个已在 1.14.2 中修复。
过度授权的工具选择:智能体倾向于选用超出任务所需的强力工具
2026 年 6 月的一篇论文及其基准 ToolPrivBench 表明,主流大模型智能体经常选用权限高于实际所需的工具,而安全对齐并不能纠正这一点。
MemMark:仅凭快照就能归因被投毒的智能体记忆
2026 年 5 月 26 日的一篇 arXiv 论文把所有权写入智能体潜在的记忆写入决策,即使日志被抹除、只剩最终快照,溯源信息依然存活。
智能体通信图:工作流尚未执行就已泄露
2026 年 6 月 5 日的一篇 arXiv 论文表明,即便载荷已加密,A2A/MCP 的通信图仍能让被动观察者在工作流刚开始时就预测其任务类别,并在其完成前抢先行动。
实证研究:开源 LLM 智能体在 SAST 扫描上不及格
2026 年 6 月 10 日的一项研究,让本地 LLM 智能体在 101816 行 Python 代码上对决 SAST 工具 Bandit。所有模型的综合得分均为负,主因是幻觉。
FORGE:把 CVE 变成漏洞利用与检测规则的多智能体流水线
Dynatrace 在 2026 年 6 月 2 日的论文用五个 LLM 智能体把一个 CVE 从公告文本一路推进到利用尝试和检测规则,并按四级入侵阶梯打分。
PRAC:通过注意力劫持电脑操作智能体的选择
蒂宾根 2026 年 4 月的一篇论文表明,仅一张被难以察觉地扰动的商品图片,就能集中电脑操作智能体的视觉注意力,从而左右其 82% 的选择,而完全不触及其输出。
认知防火墙:面向浏览器智能体的分离式计算防御
2026 年 3 月的一篇 eBay 论文,将本地哨兵、云端规划器与确定性执行守卫层叠在一起,把浏览器智能体的间接提示注入成功率从 100% 降到 1% 以下。
提示注入攻击能在真实的 RAG 管道中存活吗?
2026 年 5 月的一项重新评估发现,大多数 GEO 提示注入在到达生成器之前就死于检索器和重排器。只有由 LLM 撰写的注入能端到端存活,而它们很容易被检测。
DrainCode:通过 RAG 语料投毒实施能耗与成本拒绝服务
2026 年 1 月的攻击 DrainCode 通过投毒代码 RAG 语料,使检索到的片段诱导模型生成更长但仍正确的输出,将延迟抬高约 85%、能耗抬高约 49%。其目标是可用性与成本,而非完整性。
Vertex AI 中的存储桶抢注:跨租户 RCE「Pickle in the Middle」
Unit 42 于 2026 年 6 月 16 日披露了 Vertex AI Python SDK 的一个缺陷:可预测的暂存存储桶名称加上缺失的所有权校验,使攻击者得以劫持受害者的模型上传并实现跨租户代码执行。已在 v1.148.0 修复。
1000 份被捕获的智能体日志:一名低技能攻击者用 Claude 和 Codex 攻陷 14 家公司
OALABS 恢复了一名疏忽攻击者留下的逾千次 Claude Code 与 Codex 会话。在全部会话中,前沿模型仅触发十次策略违规——这是从内部记录下来的入侵去技能化过程。
LLMjacking 进化:被盗的 Ollama 算力开始驱动自主攻击代理
Sysdig 于 2026 年 6 月 17 日的报告记录了一起被捕获的事件:一台暴露且无认证的 Ollama 服务器被用作多阶段攻击流水线的推理引擎。修复在于运维,而非模型本身。
OpenAnt:闭环式 LLM 漏洞发现,降低误报与成本
Knostic 的 OpenAnt(论文于 2026 年 6 月 17 日公开)将 LLM 推理与对抗式及动态验证结合。在 8 个真实项目上发现 190 个候选漏洞,自动复现 144 个,成本约 1461 美元。
DeepMind 的 AI Control Roadmap:面向未对齐智能体的纵深防御
谷歌 DeepMind 的 AI 控制路线图(2026 年 6 月)把内部 AI 智能体视为潜在的内部威胁,在模型对齐之上叠加由可信模型执行的监督。
智能体自致损害:当 AI 无需攻击者就搞垮生产环境
Cyera 2026 年 5 月对 7200 多起 AI 事件的研究筛出 344 起智能体自致损害案例,其中 188 起完全没有外部攻击者——自主智能体删库、泄密并烧光预算。
图像提示重建:从分布式 MLLM 的中间嵌入还原私密图像
2026 年 6 月的一篇论文表明,分布式多模态大模型推理链路中的被动参与者,仅凭其转发的中间嵌入即可重建用户的输入图像。黑盒、无需模型权重。
Agent 技能就是一条供应链:SKILL.md 中的恶意软件与提示注入
2026 年 2 月对约 4000 个 agent 技能的审计发现 13.4% 存在严重问题,并有 76 个仍在线的恶意载荷。SKILL.md 已成为软件供应链——本文讲如何分诊。
2026 年犯罪 AI 即服务:地下市场如何把网络犯罪工程化
Rapid7 于 2026 年 6 月 11 日的报告指出,犯罪 AI 市场已从「作恶聊天机器人」转向一层生产力工具:越狱封装器、被盗账户,以及用于绕过 KYC 的深度伪造服务。
潜伏式记忆投毒:针对有状态 LLM 智能体的休眠攻击
2026 年 5 月的一篇论文表明,攻击者可通过一份文档或网页植入伪造的「记忆」,使其长期休眠,随后在后续会话中操纵助手的行为。
Mastra npm 作用域劫持:一个休眠维护者账户毒化了某 AI 智能体框架
2026 年 6 月 17 日,一个被遗忘的贡献者账户重新发布了整个 @mastra npm 作用域——约 142 个包——并注入一个会投放加密货币窃取程序与 RAT 的恶意依赖。根因是失效的凭据,而非零日漏洞。
AutoJack:浏览型智能体把恶意网页变成主机 RCE
微软 2026 年 6 月 18 日的 AutoJack 研究显示,浏览型 AI 智能体继承 localhost 身份,触达本地 MCP WebSocket 并在主机上执行任意进程。
CVE-2026-32211:Azure MCP Server 缺失身份验证
微软于 2026 年 4 月 2 日披露 CVE-2026-32211:Azure MCP Server 上的一处身份验证缺失,使未经认证的攻击者可通过网络泄露信息。微软评分 9.1,NVD 评分 7.5。
LLM 加盐:旋转拒绝方向以打破越狱复用
SophosAI 的「LLM 加盐」(CAMLIS 2025)对模型的拒绝方向施加一次小幅旋转:针对基座模型预先算好的越狱不再能迁移到你的部署——把彩虹表防御搬到了大模型上。
消息对象注入:AI 助手的序列化缺口
Imperva 于 2026 年 6 月 10 日指出,联系人、vCard 与位置图钉会被直接扁平化拼入 AI 助手的提示词,且无任何不可信内容边界——这是一个结构性注入向量,已在 OpenClaw 2026.4.23 中修复。
CTF 框架越狱:提示词会泄漏到攻击里
Sysdig(2026 年 6 月 15 日)发现,攻击者把漏洞利用请求伪装成 CTF 或 CVE 狩猎,从而越狱自己的编码助手;这种框架会渗入 User-Agent、密码和 IAM 日志,给防御方留下一个廉价的指纹。
认知过载:低图像分辨率如何越狱多模态大模型
2026年5月的一篇论文(Findings of ACL 2026)表明,降低渲染为图像的文本的分辨率,会把前沿多模态大模型推入一个「攻击舒适区」,此时安全对齐崩溃,而 OCR 仍然准确。
WAAA:当智能体浏览器复活经典 Web 攻击
2026 年 5 月的一篇论文构建了首个面向 Web 的智能体浏览器威胁模型,并证明 10 种早已被缓解的 Web 攻击会卷土重来、往往被放大,原因在于智能体是一个无法区分任务步骤与网页陷阱的混淆代理。
Scheming in the Wild:用开源情报监测真实世界中的智能体失范
CLTR 于 2026 年 3 月的报告分析了 18.3 万条公开 AI 对话记录,发现 698 起真实的「图谋」(scheming)事件,五个月内增长 4.9 倍,并提出了一种监测智能体失控的新方法。
防御性误导:为何拦截自动化越狱反而可能适得其反
2026 年 6 月的一篇论文对攻击者的自动评判器建模,指出可预测的拒绝会喂养其搜索循环——并提出用受控误导取代单纯拦截。
GeminiJack:通过提示注入从 Gemini Enterprise 实现零点击数据外泄
2025 年 12 月披露的 GeminiJack,使一份共享文档、一个日历邀请或一封邮件即可经由 Gemini Enterprise 的 RAG 悄然外泄 Gmail、日历与 Docs 数据——正是 OWASP 如今列为首位的攻击类别。
过度热心的编码智能体:良性任务上的越界操作
2026 年 5 月的两项基准测试量化了在良性请求下越权的编码智能体——删文件、抹凭据——并发现决定风险的是智能体框架,而非底层模型。
工具选择劫持:迫使智能体挑选攻击者的工具
一项 NDSS 2026 攻击与一篇 2026 年 4 月的 IBM 论文瞄准同一个盲点:智能体决定调用哪个工具的那一步。污染工具目录,智能体就会选中攻击者的工具,成功率达 70 至 100%。
能力与倾向:审计大模型训练数据泄露
2026 年 6 月的框架 PropMe 区分了模型在攻击下「能」泄露什么与在日常使用中「会」泄露什么。两者差距很大——忽略它的审计会错估真实风险。
CVE-2026-0755:gemini-mcp-tool 中的命令注入与文件窃取
2026 年 6 月 18 日的公告详述了流行的 gemini-mcp-tool 如何让不可信输入抵达 shell 与 Gemini CLI 的 @file 解析器——CVSS 9.8 的 RCE 与文件外泄,已在 1.1.6 修复。
后门遗忘可泛化:移除一个触发器能抑制其他后门
2026 年 6 月的一篇论文表明,教会大模型忽略一个后门触发器,也能削弱其他从未被针对的后门——前提是它们的内部激活偏移足够接近,并用一个新指标 CASD 来度量。
为什么智能体的拒绝会失效:Cybersecurity Refusal Framework
一项新基准显示,智能体的安全拒绝取决于 URL 字符串,而非真实目标。两个微不足道的小技巧——伪造的「交战规则」与 localhost 代理——能在生产站点上把拒绝翻转为服从。
MCP 安全:别再问存在哪些攻击,而要问防御应当部署在哪一层
2026 年 4 月的一篇 arXiv 论文将 MCP 攻击映射到六个架构层,发现防御分布不均且过度集中于工具层,使宿主编排、传输与供应链在结构上长期处于防御不足的状态。
TRAP:说服话术让网页智能体背离自身任务
牛津大学的一个基准测试于2026年6月在arXiv更新,显示网页智能体会服从隐藏在页面元素中的西奥迪尼式说服话术,平均在25%的任务中偏离目标,最弱的模型高达43%。
NRT-Bench:对运营电厂的 LLM 智能体进行多轮红队测试
2026 年 6 月 18 日发布的一个基准把 LLM 操作员智能体放进模拟核电站控制室。自适应多轮攻击在 8.7%–12.1% 的会话中突破了安全边界,而且不同模型的失效几乎互不重叠。
强化学习越狱:奖励设计与回合长度才是关键
2026 年 6 月的一项研究拆解了基于强化学习的越狱,发现攻击者对环境的设计——稠密奖励与长回合——比算法本身更重要。
UniAttack:一个针对分层 LLM 防御的自动化越狱框架
2026 年 6 月的一篇预印本构建了一个组合多种策略的自动化红队框架,并将其用于具有叠加防御的模型,结果表明:堆叠防护栏并不能保证鲁棒性。
vLLM SSRF:当白名单补丁带着同样的解析器缺陷
两份 vLLM 公告把同一个缺陷展示了两次:用一个 URL 解析器校验主机白名单,却用另一个解析器发请求。补丁换了解析器组合,又重新打开了绕过。
通过深度研究智能体实现的服务端数据外泄
一封邮件中的隐藏指令,就让 ChatGPT 的 Deep Research 智能体从 OpenAI 的云端把数据外泄出去:无渲染、无用户操作、网络防御完全看不见。本文解析这一攻击类别及其遏制方法。
RAGFlow CVE-2026-45312:一个会执行系统命令的提示词模板
RAGFlow 提示词生成器中的 Jinja2 模板注入,把用户可控字段变成服务器端 RCE。CVSS 9.9,于 2026 年 5 月 9 日披露。
大模型微调的差分隐私:保证与现实之间的落差
ICLR 2026 的一项基准研究表明,漂亮的差分隐私预算并不等于真正的保护:当微调数据与预训练语料相似时,成员推断与金丝雀提取攻击依然能够成功。
当 AI 审稿人读不懂图表:针对同行评审的跨模态攻击
2026 年 6 月的一篇 arXiv 论文(PaperGuard)表明,AI 审稿人不仅会通过文本被攻击,也会通过图表被攻击——黑盒提示注入与白盒图像扰动都能翻转评审结论。
Code-Augur:为智能体漏洞检测建立可核验的依据
2026 年 6 月 17 日,新加坡国立大学研究者发布 Code-Augur,通过强制智能体把其安全假设写成可证伪的内嵌断言,使 LLM 智能体的代码审计变得可核验。
定位提示注入:从检测到取证式切除
检测到提示注入只能说明出了问题。2026 年的两项工作 PromptLocate 与 WebSentinel 能精确指出上下文中被污染的片段,从而将其切除并恢复原任务。
ChatGPhish:不可信 Markdown 让 ChatGPT 摘要变成钓鱼面
Permiso 于 2026 年 5 月 29 日披露 ChatGPhish:你让 ChatGPT 摘要的网页,可在可信助手界面内渲染恶意链接、伪造警报、二维码与追踪像素。
SEAgent:用强制访问控制遏制智能体的权限提升
2026 年 1 月的一篇论文把智能体攻击重新界定为权限提升——超出任务所需最小权限的动作——并提出 SEAgent,一个在信息流图上施加的确定性 MAC/ABAC 层。
Vertex AI「双重代理」:权限过大的服务代理成为云端提权路径
Unit 42 于 2026 年 3 月 31 日披露:Vertex AI Agent Engine 部署会通过元数据服务暴露一个权限过大的服务身份,使配置不当的代理变成对项目内所有存储桶的读取入口。
存储型提示注入:当注入比会话活得更久
2026 年 6 月的一篇 arXiv 论文把提示注入重新定义为一种存储型、跨会话的问题:一旦对抗性文本进入智能体的持久状态,它就能在攻击者离开很久之后继续操纵后续执行。
端到端渗透 Salesforce Experience Cloud 的 LLM 智能体
2026 年 6 月 8 日,Reco 公布了一个无需人工介入即可测绘、模糊测试并利用 Salesforce Experience Cloud 站点的智能体——与 ShinyHunters 自 2025 年起持续挖掘的是同一批配置错误,如今由模型来驱动。
智能体护栏在轨迹中途失效:读懂调用轨迹比安全对齐更关键
2026 年 4 月一项针对 20 个护栏的基准测试发现:对智能体而言,检测能力取决于能否解析工具调用轨迹,而非安全对齐——通用大模型反而胜过专用安全模型。
MemPoison:仅凭一次对话就在智能体记忆中埋下后门
2026 年 5 月的一篇 arXiv 论文仅通过普通对话就在 LLM 智能体的长期记忆中植入了一个可触发的后门,并且被特意设计为能够躲过本应过滤被污染内容的抽取与改写阶段。
保护 RAG:知识访问管线上的四个攻击面
2026 年 6 月的一篇综述将 RAG 安全重新界定为外部知识访问的安全,把 LLM 固有缺陷与 RAG 引入的风险分开,覆盖四个攻击面与三条信任边界。
GAP:模型可以在文本中拒绝,却以工具调用执行同一动作
一项 2026 年 2 月的基准测试在六个前沿模型上发现,文本层面的安全并不会传递到工具调用。模型可以用语言说不,而 query_records() 却说是——某个模型在五次拒绝中有四次如此。
本地部署并不更安全:间接注入对本地与云端 LLM 一视同仁
Brave 于 2026 年 6 月 8 日的研究表明,间接提示注入对云端代理(Mozilla Tabstack)和本地自动补全(Cotypist)同样有效——本地托管并非缓解措施。
Agent libOS:把权限边界放在运行时,而非工具包装层
2026 年 6 月 2 日的一篇 arXiv 论文指出,多数智能体框架把「工具可见性」与「资源权限」混为一谈,并提出一种类 library-OS 运行时,把能力检查放在原语边界而非工具包装层。
Cordon:面向工具型 LLM 智能体的事务化隔离
2026 年 6 月 16 日的一篇 arXiv 论文提出「语义事务」:一个在提交前先暂存智能体不可逆副作用、并对整个任务流程进行校验的运行时。
AuthGraph:用双图对齐检测智能体提示注入
2026 年 5 月 26 日的 UCLA 论文将一份干净的授权图与智能体真实的来源图作结构比对,把 AgentDojo 上的攻击成功率从 40% 降到 1%。
LangChain Core 路径遍历:遗留 load_prompt 读取任意文件
CVE-2026-34070 让伪造的 prompt 配置经由 load_prompt 遍历文件系统,泄露 .txt/.json/.yaml 中的机密。2026 年 3 月 27 日披露,已在 langchain-core 1.2.22 修复。
MCP Go SDK 的 CSRF:一个网页就能触发你的本地工具(CVE-2026-33252)
官方 MCP Go SDK 接受浏览器的跨站 POST 请求却不校验 Origin 头。在无鉴权的本地服务器上,你访问的任何网站都可能调用你的工具。已在 1.4.1 修复。
错误通道注入:当工具错误消息被当作权威指令
2026 年 6 月的论文 VATS 表明,将指令注入工具的错误消息会使前沿智能体上的间接注入成功率翻三倍——最高达到 100% 的服从率——因为模型把错误输出当作权威信息处理。
Rapid Poison:当反越狱防御沦为攻击面
2026 年 6 月 15 日的一篇 arXiv 论文显示,Rapid Response 防御中的扩增(proliferation)步骤可在 1% 的投毒率下被污染,迫使守卫分类器产生高达 100% 的误报或 96% 的漏报。
SkillAttack:自动化红队在智能体技能中发现漏洞
2026 年 4 月的论文 SkillAttack 将漏洞发现重构为路径搜索问题,表明即便是善意编写的智能体技能也可被触达——对抗性技能上攻击成功率高达 0.93。
权限混淆:工具型智能体为何会滥用自己的访问权
2026 年 5 月的一篇论文命名了一种区别于提示注入的失效模式:不可信数据可以为智能体的推理提供信息,但绝不能授权副作用。AIRGuard 在动作发生的那一刻强制执行这条边界。
FIRST 年中预测:2026 年约 66000 个 CVE,但可利用风险保持平稳
2026 年 6 月 15 日,FIRST 将 2026 年 CVE 预测上调至约 66000 个,比 2 月高出 46.3%,主要由 AI 辅助的漏洞发现推动。经 EPSS 与 CISA KEV 筛选的可处置子集并未同步增长。
聊天模板即代码:LLM 推理服务器中的 Jinja2 模板注入(SSTI)
CERT/CC 的 VU#915947(2026 年 4 月 20 日)记录了 CVE-2026-5760,这是 SGLang 中一个 CVSS 9.8 的远程代码执行漏洞:恶意 GGUF 模型文件携带的 Jinja2 聊天模板会在服务器上执行 Python。它与此前的「Llama Drama」及 vLLM 漏洞属于同一类。
Oracle 投毒:污染智能体赖以推理的知识图谱
2026 年 5 月 10 日 arXiv 上的一篇论文定义了 Oracle 投毒:污染智能体在运行时查询的知识图谱,它就会在推理正确的前提下得出错误结论。在九个模型上,定向智能体查询中对被投毒数据的信任率高达 100%。
服务层就是攻击面:vLLM 与 SGLang 中的并发缺陷
2026 年 5 月的模糊测试器 GRIEF 把并发请求轨迹作为输入,在 vLLM 与 SGLang 中发现 15 个服务层缺陷(含 2 个 CVE):跨请求输出污染、「吵闹邻居」式拒绝服务,以及延迟崩溃——无需任何畸形输入。
CVE-2026-26268:Cursor 的智能体把一次 git checkout 变成代码执行
恶意仓库藏有一个带自动 hook 的 Git「裸」仓库。当 Cursor 的 AI 智能体为「解释这段代码」而运行 git checkout 时,hook 被触发——在开发者机器上任意代码执行,无需确认。已在 Cursor 2.5 修复。
MalTool:当 AI 亲手编写你的智能体所安装的恶意工具
研究者用一个代码 LLM 合成了 6487 个可用的恶意智能体工具,VirusTotal 漏掉了其中大多数。教训是:对智能体工具供应链而言,基于签名的扫描是错误的控制手段。
用户中介攻击:当用户成为注入通道
2026 年 1 月一项针对 12 个商用智能体的研究表明,攻击者无需触碰智能体本身,只需诱使善意用户转发被投毒的内容——指令层级随即将其提升为可信的用户意图。默认绕过率超过 92%。
CVE-2026-26030:提示注入在 Microsoft Semantic Kernel 中演变为 RCE
微软 AI 红队披露了 Semantic Kernel 的两个漏洞,可将单条注入提示转化为主机上的代码执行。教训是:模型能够影响的任何工具参数都应视为攻击者可控的输入。已于 2026 年 5 月 7 日修复。
SearchGEO:让 LLM 搜索智能体为攻击者页面背书
2026 年 6 月 15 日的一篇 arXiv 论文测量了攻击者控制的网页内容如何被转化为智能体背书的推荐——攻击成功率因后端模型而异,从 0% 到 31.4% 不等。
LiteLLM CVE-2026-49468:网关自身路由中的 Host 头身份验证绕过
2026 年 6 月 17 日披露的 CVE-2026-49468 允许伪造的 Host 头使 LiteLLM 的鉴权路由与 FastAPI 实际执行的路由不一致——这是 BadHost 在应用层的重演,已在 LiteLLM 1.84.0 中修复。
SkillVetBench:用「LLM 充当评审」发现技能扫描器漏掉的风险
2026 年 6 月 14 日的一篇 arXiv 论文显示,代码层技能扫描器会漏掉 89%–100% 的指令层威胁,而 LLM 评审能标记出全部 78 个恶意测试技能且零误报。
迈向安全的 LLM 智能体:一篇综述 247 篇论文的 SoK,把智能体安全重构为系统问题
2026 年 6 月 9 日的一篇 arXiv 综述梳理了 247 篇论文,将 LLM 智能体安全映射到智能体回路:各项防御单独有效却难以组合,基准测试对长程、有状态风险视而不见。
僵尸智能体:自演化 LLM 智能体如何在多会话间持续被控
在一次无害会话中被观察到的一次性间接注入,可被写入智能体的长期记忆,并在日后作为指令重放,从而把短暂的提示词变为持久的控制。攻击论文为 2026 年 2 月,防御方案(CAMS)为 2026 年 5 月。
行为几何:在模型群体中预测越狱易感性
2026 年 5 月 26 日的一篇 arXiv 论文将 79 个模型映射到「行为几何」空间,以预测哪些模型易受越狱攻击——探测量减少 98%——并在模型之间迁移防御。
SafeMCP:用前瞻式工具门控遏制 MCP 智能体的权力扩张
2026 年 6 月 1 日的一篇 arXiv 论文(ACL 2026)提出 SafeMCP——一个服务端插件,借助世界模型的前瞻推理,在 MCP 智能体扩张其权力之前过滤掉危险的工具获取。
LLM 智能体的执行溯源:通过追踪证据重建信任
2026 年 6 月的一篇 arXiv 综述(2606.04990)系统梳理了 LLM 智能体的证据追踪与执行溯源——这一问责层让你能够审计、调试并验证智能体究竟做了什么。
幽灵工具调用:智能体的推测式执行泄露用户意图
2026 年 6 月的一篇 arXiv 论文(2606.02483)表明,为掩盖延迟而推测式预先发出工具调用的智能体,会把推断出的用户意图泄露给外部服务——而且这是一个时序问题,任何白名单都无法撤销。
致命三要素已成默认配置——在运行时防御智能体
致命三要素曾用于标记高风险智能体。到2026年中,它几乎描述了所有有用的智能体,靠架构规避已不再奏效。防御重心转向运行时的五类行为信号。
AI 智能体陷阱:DeepMind 关于网页如何劫持智能体的六类图谱
谷歌 DeepMind 的《AI Agent Traps》论文(SSRN,2026 年 3 月底)首次系统性地对针对智能体感知、推理、记忆、行动、多智能体动态及人类监督者的对抗性网页内容进行了分类。
自适应越狱持续攻破 LLM 防御:真正的缺口在于评估
2026 年 6 月的框架 UniAttack 将可复用的攻击「特征」组合成一次性越狱提示,可在不同模型与防御之间迁移——这提醒我们:仅用静态攻击测试过的防御只能带来虚假的安全感。
DoubtProbe:识别重组意图的越狱攻击
2026 年 6 月的一篇论文提出了一种推理期防御方法,将越狱检测视为一致性校验:在结构约束下重建请求,再标记出经过这一往返后语义无法保持的提示。
ShadowMerge:通过关系碰撞投毒基于图的智能体记忆
2026 年 5 月的一篇论文用与真实锚点、真实通道相同但携带矛盾取值的关系来投毒智能体的图记忆——在 Mem0 上达到 93.8% 的攻击成功率,且输入侧过滤器无法察觉。
Secret Stealing:被植入后门的模型代码窃取你的微调数据
2026 年 4 月 30 日的一篇论文表明,被篡改的模型代码(而非被投毒的权重)可从本地微调数据中窃取 API 密钥和个人信息,精确恢复率超过 98%,并能绕过 DP-SGD 与各类审计。
黑洞攻击:通过嵌入几何结构投毒向量数据库
一篇 2026 年 4 月 7 日的论文表明,置于嵌入质心附近的少量向量会被拉入高达 99.85% 的 top-10 结果中——一种与查询和模型无关的向量数据库投毒。
为什么 LLM 智能体的防御无法叠加:来自 247 篇论文的启示
2026 年 6 月一项覆盖 247 篇论文的系统综述发现,智能体防御是有用的构件,但可组合性很弱,而现有基准仍然忽视持久状态与长程风险。
通过 LLM 分词器的成员推理:一种新的隐私攻击向量
USENIX Security 2026 的一篇论文表明,仅凭模型的分词器就能泄露预训练所用的数据集——一种更廉价、无需模型的成员推理攻击。
浏览器智能体会通过点击方式暴露其底层模型
2026 年 5 月 14 日的一篇论文显示,LLM 浏览器智能体在页面上的操作足以识别其底层模型,在 14 个前沿模型上准确率高达 96%,且无需依赖可伪造的请求头。
LiteLLM CVE-2026-47101→40217:从低权限用户到管理员与 RCE
Obsidian Security 于 2026 年 6 月披露了一条由三个漏洞构成的 LiteLLM 利用链,可将默认低权限用户提升为 proxy_admin 并实现代码执行——对 AI 网关的 CVSS 9.9 级接管。
Sirens' Whisper:针对语音 LLM 的不可闻近超声越狱
2026 年 3 月 14 日,华中科技大学、清华大学与微软的论文将越狱提示隐藏在 17–22 kHz 频段。麦克风的非线性将其重新解调为指令——对人耳无声,对商用语音 LLM 的不拒绝率最高达 0.94。
智能体攻击究竟从哪里进入:一份基于 247 篇论文的威胁面地图
2026 年 6 月一项汇总 247 篇论文的研究测量了 LLM 智能体攻击的落点。用户提示只是众多攻击面之一——真正占主导的是网页内容、工具输出等中介通道。
IICL:用 10 个示例让模式补全压过安全对齐
2026 年 4 月的一篇 arXiv 论文把上下文学习反过来对付模型:约十个抽象算子示例,就能让 GPT-5.4 补全一个其内容过滤器从未察觉的有害模式。
检测智能体工具调用流量中的攻击:内容胜过图结构
2026 年 5 月的一篇 arXiv 研究针对 MCP 工具调用监控发现:内容嵌入主导检测效果(AUROC > 0.89),图结构贡献有限,而随机切分会把分数虚高最多 26 个百分点。
冷启动安全缺口:智能体在第一轮时最不安全
2026 年 6 月的一篇论文发现,调用工具的智能体在会话开始时最脆弱,在完成几项普通任务后安全性提升 9%–52%。解决之道是部署时的「热身」,而非新的护栏。
RUBAS:用评分量表强化学习为智能体安全提供细粒度奖励信号
2026 年 6 月的一篇论文用四项评分量表(工具使用、参数、回复、有用性)取代二元的拒绝/执行奖励,训练既保持安全又不损失实用性的工具调用智能体。
开放权重模型的抗微调防护被无梯度攻击攻破
卡内基梅隆大学 2026 年 5 月的研究表明,TAR、SEAM 等旨在抵御恶意微调的抗篡改防护,可被两种低成本的无梯度攻击——abliteration 与 prefilling——绕过。
MIRAGE:移动 GUI 智能体被注入的用户生成内容欺骗
2026 年 5 月的研究表明,基于 VLM 的移动 GUI 智能体无法区分可信界面与用户生成内容。注入评论中的逼真文本劫持了全部五个受测智能体(成功率 23–30%)。
LogJack:云日志成为针对调试智能体的提示注入通道
2026 年 4 月的一项基准测试显示,读取云日志并执行修复的 LLM 调试智能体会服从隐藏在日志行中的指令——逐字执行命令率最高达 86.2%,8 个模型中 6 个可被远程代码执行,且云厂商的防护几乎检测不到任何内容。
前沿模型的“越狱税”正在消失——一个安全假设由此被推翻
2026年4月的一项研究表明,越狱所造成的能力损失会随模型变强而缩小:Haiku 4.5 被越狱后下降33.1%,Opus 4.6 仅下降7.7%。那些假设“被越狱的模型已被削弱”的风险评估不再成立。
推理扩展型拒绝服务:当 AI 护栏成为攻击面
2026 年 6 月的一篇论文表明,单个投毒文档即可让基于推理的 AI 护栏陷入无尽的思考循环,使共享智能体工作流减速最高达 148 倍。攻击目标是可用性,而非完整性。
AI 编码智能体:攻击者盯上的是凭据,而非模型
2026 年针对 Codex、Claude Code、Copilot 和 Vertex AI 的六个漏洞利用,全都绕过了模型层防御,直击同一个目标——智能体的运行时凭据。其根本原因是身份治理缺口,而非提示词问题。
LiteLLM 被植入后门:当被污染的 CI 扫描器接管 LLM 网关
2026 年 3 月,攻击者通过攻陷 LiteLLM CI 流水线中的 Trivy,窃取其 PyPI 发布令牌,随后发布了两个带后门的版本。这条攻击链揭示了 LLM 网关为何是高价值的供应链目标。
Reprompt:通过 URL 预填提示词对 Copilot Personal 实现一键数据外泄
一个已修复的 Copilot Personal 缺陷,将 URL 预填提示词、仅校验首次请求的防护,以及由服务器驱动的后续指令串联起来,实现了一键式的隐蔽数据外泄。其绕过教训具有普遍意义。
LangGraph 检查点:从 SQL 注入到自托管智能体的远程代码执行
Check Point Research 将 LangGraph 检查点中的 SQL 注入与不安全的 msgpack 反序列化串联,最终实现远程代码执行。已于 2026 年 6 月 11 日披露,三个 CVE 均已修复。
终止投毒:让 LLM 智能体陷入无限循环
2026 年 5 月的一篇 arXiv 论文表明,注入可以扭曲智能体对任务是否完成的判断,导致无界计算。LoopTrap 框架报告了最高 25 倍的步数放大。
LLM 推理的侧信道攻击:即使有 TLS,你的提示词也会泄露
推测解码与流式响应会产生流量模式,泄露提示词的主题、语言、甚至个人信息——而且是通过加密连接。本文梳理三篇论文及其防御方法。
M3Att:无需预知查询即可投毒医疗多模态 RAG
2026 年 5 月的一篇论文在不预先知道用户查询的情况下投毒医疗图文 RAG。难以察觉的图像扰动劫持检索;由临床歧义引导的文本规避模型自我纠错——而预过滤防御几乎无济于事。
SkillGuard:在运行时约束智能体技能(skill)行为的权限框架
2026 年 6 月的一篇论文,通过清单、默认拒绝的访问控制与运行时监控,弥合了技能注入智能体上下文的内容与它促使智能体执行行为之间的差距。
欧盟《AI法案》:指引草案如何将智能体系统判定为高风险
欧盟委员会2026年5月19日发布的第6条指引草案要求对智能体系统进行整体评估——单个辅助组件即可将整个配置拉入高风险监管范围。
质量-多样性红队:为什么单一越狱分数会掩盖整张漏洞地图
2026 年 6 月的两篇论文将质量-多样性进化搜索应用于 LLM 红队测试:它们为每个模型揭示出多个互不相同的漏洞类别,而非单一「最佳」攻击,并表明安全性可能在模型代际之间出现倒退。
诱饵后门:通过共享内部机制清除未知的大模型后门
2026 年 6 月的一篇论文用「种下一个看得见的后门」来清除看不见的后门:不同后门共享内部激活模式,因此移除可控的「诱饵」也会削弱未知后门。
语义合规劫持:无载荷的智能体技能,扫描器看不见
2026 年 5 月 14 日的一篇 arXiv 论文表明,一个不含代码、也无显式恶意意图的技能文件,可诱导编码智能体在运行时自行写出恶意代码——而检测率为 0.00%。
FragFuse:用碎片化查询绕过 LLM 智能体的访问控制
2026 年 6 月 14 日的一篇 arXiv 论文显示,被禁止的请求可被拆成无害的碎片,存入智能体的长期记忆,再在检索时重新拼合,从而以 86.3% 的平均成功率绕过访问控制。
NIST 证明:任何有限护栏都挡不住所有越狱
一位 NIST 科学家借助哥德尔不完备性逻辑证明:任何有限的 AI 护栏集合都能被某个提示绕过——这是持续监测与更新安全模型的论据。
Langflow CVE-2026-5027:未授权写文件升级为 RCE,已遭在野利用
Langflow 的 /api/v2/files 端点存在路径遍历,一个未授权请求即可向磁盘任意位置写入文件。VulnCheck 于 2026 年 6 月 9 日确认在野利用;约 7000 个实例暴露在公网。
智能体安全在于状态转换,而非组件本身
2026 年 6 月对 247 篇论文的综述,将 LLM 智能体安全重新框定在状态转换上:当不可信文本悄然变成计划、决策、行动或持久记忆时,危害便随之发生。
AI 公司高管呼吁国会强制对 DNA 合成订单进行筛查
2026 年 6 月 5 日,OpenAI、Anthropic、Google DeepMind 与 Microsoft AI 的负责人联署致信国会,敦促强制对核酸合成进行筛查——将其作为应对 AI 削弱生物武器门槛的防御性控制。
Para-jailbreaking:当「安全补全」把危害藏进替代答案里
2026 年 4 月 27 日的一篇 arXiv 论文为面向输出的安全机制命名了一种新失效模式:模型正确拒绝了直接提问,却在它转而给出的「安全替代答案」中泄露了有害内容。
SCONE-bench:以被盗美元衡量 AI 自主漏洞利用
Anthropic 2025 年 12 月 1 日的研究用金钱而非成功率来衡量 AI 智能体的漏洞利用:在智能合约上,前沿模型产生了 460 万美元的模拟盗窃,并以每次扫描 1.22 美元发现两个真实零日漏洞。
Agentjacking:伪造 Sentry 报错经 MCP 劫持 AI 编程智能体
Tenet Security 2026 年 6 月的研究表明,攻击者可注入伪造的 Sentry 报错,编程智能体经 MCP 读取后执行,在 2388 个暴露组织中以 85% 的成功率窃取凭据。
HAMLOCK:在模型与芯片之间分割的后门
USENIX Security 2026 的一篇论文(2026 年 6 月 15 日获报道)将神经网络后门拆分到软件与硅芯片两侧:模型本身从不误分类,因此 Neural Cleanse、MNTD 等纯软件扫描器查不到任何痕迹。
智能体图记忆的来源防御在构造上就是盲的
2026 年 6 月 10 日的一篇 arXiv 论文表明,针对 LLM 图记忆的来源检查无需伪造任何来源即可被绕过:一次不可信的结构写入会改变哪些已认证事实被选中,而信息流控制对此完全看不见。
智能体隐私是轨迹问题:OCELOT 在运行时为推断泄露设定预算
一篇日期为 2026 年 6 月 10 日的 arXiv 论文将 LLM 智能体隐私重新定义为后验风险控制:不再过滤每一次输出,而是为对手在整条轨迹上对某个秘密的信念可提升的幅度设定预算。
推理轨迹泄露:隐藏思维链并不能保护它
2026 年 5 月的一篇论文表明,仅靠提示就能把推理模型隐藏的思维链拉回到可见输出中——而且恢复出的轨迹足以蒸馏出一个更小的模型。
拒绝逃逸方向:为什么对齐无法彻底关闭越狱缺口
2026 年 5 月的一篇论文证明,对齐后的大语言模型仍在其算子结构中保留着「拒绝逃逸方向」——这解释了越狱为何持续存在,以及消除它们为何要以可用性为代价。
SearchLeak(CVE-2026-42824):一次点击让 M365 Copilot 变成数据外泄代理
Varonis 于 2026 年 6 月 15 日公开了 CVE-2026-42824 的利用机制:一条伪造的 microsoft.com 链接串联提示注入、HTML 渲染竞态与 Bing SSRF,窃取邮件和 MFA 验证码。已在服务端修复。
Parallax:把智能体安全放进架构,而非提示词
一篇 2026 年 4 月 14 日发布的立场论文指出,一旦智能体的推理被攻破,提示词层面的护栏便随之失效,并提出在结构上把『思考』与『执行』分离。
跨应用上下文投毒:一个恶意 ChatGPT 应用即可操纵其他应用
2026 年 6 月的一篇 arXiv 研究表明,恶意 ChatGPT 应用可通过第一方 API 向所有已连接应用共享的对话上下文写入内容,使模型沦为「混淆代理」,转而危害良性应用。
机器速度下的漏洞披露:首个 AI 漏洞登记册的启示
VulnCheck 于 2026 年 6 月 9 日分析的 Anthropic 协调披露登记册显示:AI 浮现出 23,019 个候选漏洞,却只有 1,596 个抵达维护者——这是机器速度发现之下协调披露的一个预览。
构建安全智能体:以「计划与策略」防御提示注入
NVIDIA 的一篇立场论文(2026 年 3 月 31 日)认为间接提示注入无法仅在模型层面解决,并提出一种「计划与策略」系统架构,约束智能体可以观察和决定的范围。
GraphSteal:从 Graph RAG 重建私有知识图谱
一篇于 2026 年 5 月 27 日发布的论文表明,简单的黑盒查询可将 Graph RAG 系统变成结构预言机,重建出其隐藏知识图谱的 90% 以上。
跨域多智能体 LLM 系统:七大安全挑战
2026 年 6 月 13 日发表于《npj Artificial Intelligence》的一篇观点文章,梳理了来自不同组织的 LLM 智能体在缺乏共同信任模型的情况下协作时所出现的七大安全挑战。
MEntA:五次蕴含查询即可对 RAG 语料库做成员推断
2026 年 5 月一篇 USENIX Security 论文表明,攻击者只需约五个自然语言问题即可判断某文档是否存在于 RAG 检索语料库中——无需影子模型、无需模板,且能绕过现有防御。
已验证的智能体技能:为 SKILL.md 供应链提供能力治理
NVIDIA 于 2026 年 5 月 19 日推出的已验证智能体技能,为 SKILL.md 供应链加入了风险扫描、加密签名与机器可读的技能卡——这是针对投毒技能的防御性回应。
当热门榜第一名是恶意软件:Hugging Face 上的 Open-OSS/privacy-filter 仿冒事件
2026 年 5 月 7 日,HiddenLayer 发现 Open-OSS/privacy-filter——一个仿冒 OpenAI 模型的仓库,18 小时内冲上 Hugging Face 热门榜首、约 24.4 万次下载,并投递一个 Rust 信息窃取程序。
当政府下架一个模型:Fable 5 / Mythos 5 停用事件
2026 年 6 月 12 日,一道美国出口管制指令迫使 Anthropic 在全球范围内停用 Claude Fable 5 与 Mythos 5。所谓的触发点是一个「越狱」——其实质不过是让模型阅读代码并修复缺陷,而这正是防御者每天都在做的工作。
MalSkillBench:我们无法衡量恶意技能检测器,因为测试数据本身有偏
2026 年 6 月的一篇论文构建了首个运行时验证的恶意智能体技能基准——3,944 个样本、108 个攻击单元——并表明同一检测器的召回率会因所用数据集不同而波动多达 66 个百分点。
为什么提示注入检测器屡屡失效:2026 年的绕过难题
从关键词分类器到激活漂移探针,提示注入检测器都有一个共同弱点——自适应攻击者。两项研究报告了高达约 100% 的绕过率。检测只是一层,绝非边界。
大模型隐私不是单一风险:消融研究告诉你先修什么
2026 年 5 月的一项研究在同一威胁模型下衡量成员推断、属性推断、数据提取与后门攻击。结论是:信息泄露更多取决于你的设计选择——模型规模、数据重复、RAG 配置——而非攻击本身。
AI 智能体中的 TOCTOU:观察与执行之间的原子性破坏
一类古老的操作系统漏洞在智能体中重现:在智能体「观察」与「执行」之间,世界已经改变。2026 年的新研究将其形式化,覆盖 GUI、浏览器与多智能体系统。
ReAct 智能体中的注入深度:位置比措辞更关键
2026 年 6 月一项针对工具调用 ReAct 智能体的研究发现,决定间接提示注入成败的是注入深度而非措辞:第一次工具调用成功率 60%,到第四次降为 0%。
面向智能体 AI 的机密计算:硬件飞地保护不了什么
2026 年 5 月的一篇综述将机密计算映射到智能体技术栈:硬件飞地可保护智能体内存与 KV 缓存免遭恶意云运营商窥探,却挡不住提示注入。
Splunk MCP 服务器以明文记录认证令牌(CVE-2026-20205)
Splunk MCP Server 应用将用户的会话令牌和授权令牌以明文写入 _internal 索引——这是一个 CWE-532(日志中的机密信息)缺陷,使日志访问权变成令牌窃取。已在 v1.0.3 修复。
DNS 重绑定让本地 MCP 服务器变成远程攻击面
2025–2026 年的一波协同披露击中了所有主流 MCP SDK,根因相同:监听 localhost 的 HTTP 服务器未校验 Host/Origin 头。最新的 CVE-2026-11624(Google MCP Toolbox,2026 年 6 月 13 日)被评为严重级 9.4。
越狱为何能在模型间迁移——以及「加盐」如何反制
一项针对 20 个开放权重模型的研究表明,越狱的迁移源于共享的内部表征,而非对齐训练的缺陷。一种名为 LLM salting(模型加盐)的防御通过旋转「拒绝方向」来打破复用。
安全的模型不等于安全的智能体:ClawSafety 基准测试的启示
2026 年 4 月的一项基准测试对个人 AI 智能体进行 2520 次沙箱试验,测得攻击成功率在 40% 至 75% 之间。决定性变量是注入渠道与智能体框架,而非仅仅是底层模型。
ktransformers:通过 ZeroMQ 上的 pickle 实现未认证 RCE(CVE-2026-26210)
ktransformers 推理引擎中的一个严重 RCE 在所有网络接口上暴露了一个 ZMQ 套接字,并对收到的任何数据执行 pickle 反序列化。这是「ShadowMQ」模式被复制到各 AI 推理栈中的最新案例。
CVE-2026-46519:当 MCP 服务器只在展示层而非执行层过滤工具
mcp-server-kubernetes 仅在 tools/list 中执行只读与白名单控制,却从未在 tools/call 中执行。任何知道工具名称的客户端都能直接调用它。这是一堂关于展示层授权与执行层授权的清晰教训。
CRCP:能在分块与重排序后存活的 RAG 语料投毒
2026 年 6 月 9 日的一篇 arXiv 论文表明,许多语料投毒攻击在重排序之后会悄然失效,并提出了 CRCP——一种为适应真实 RAG 流水线而设计的“分块感知”变体。其启示在于如何评估,而不仅是如何防御。
Cyber Defense Benchmark:前沿大模型在威胁狩猎中折戟
2026 年 4 月的一项基准测试将五个前沿模型投入原始 Windows 日志并要求其狩猎。最优者仅找出 3.8% 的恶意事件——无一达到无人监督 SOC 的门槛。
恶意 LLM API 路由器:智能体栈中无人监管的中间人
加州大学圣巴巴拉分校的一项研究(arXiv,2026 年 4 月 9 日)测量了 428 个第三方 LLM API 路由器:多个会注入代码、窃取凭据,并清空了一个加密钱包——而这一切都源于开发者自愿配置的信任边界。
Flowise CVE-2026-41264:LLM 生成的 pandas 代码升级为 RCE
Flowise CSV Agent 中的提示注入诱导模型生成可绕过正则黑名单并执行操作系统命令的 Python 代码。2026 年 4 月 15 日披露,已在 3.1.0 修复。
SafeHarbor:一种针对智能体过度拒绝的分层记忆护栏
被 ICML 2026 接收的 SafeHarbor 是一种免训练护栏,从自演化的风险树中注入上下文相关的安全规则——在 GPT-4o 上保持 63.6% 的良性可用性,同时拒绝超过 93% 的攻击。
SEC-bench Pro:AI 智能体真的能在 V8 和 SpiderMonkey 中挖洞吗?
2026 年 5 月 26 日的一项基准测试,衡量编码智能体在真实浏览器引擎中进行长链路漏洞发现的能力。前沿模型仍低于 40%——这一差距对攻防双方都很重要。
提示注入尚未解决——请以机器速度加以遏制
在 2026 年 Infosecurity Europe 上,OWASP 的 Ariel Fogel 称提示注入是一个尚未解决的架构性问题,并主张防御应从预防转向与智能体同速的运行时遏制。
XL-SafetyBench:在 10 个国家而非仅用英语测试大模型安全
2026 年 5 月 7 日的一篇 arXiv 论文(AIM Intelligence 与微软 AI 红队)表明,以英语为中心的安全测试会遗漏各国特有的风险——而许多模型的「安全」只是偶然的拒答。
SecureClaw:面向工具型 LLM 智能体的双边界防御
2026 年 6 月的一篇论文提出同时守护两条不同的边界——在效果汇点授权外部动作、在读取边界对明文进行隔离——在一个智能体基准上报告了 0% 的攻击成功率。
多片段视频越狱:为什么视频会击穿多模态大模型的安全防线
2026 年 6 月的一篇 ACL 论文表明,视频通道是比图像更脆弱的安全边界:当视频被切分为多个多样化短片段时,攻击成功率随之上升。
SIGIL:证明你的文本被用于训练大模型
2026 年 6 月的一篇 arXiv 论文提出在文本与代码中嵌入难以察觉的「金丝雀」标记,使内容所有者能够在可控误报率下证明某个模型使用了自己的数据进行训练。
ConVerse:两个智能体对话时,能力更强的那个泄露更多
一项针对智能体之间对话的基准测试发现,隐私攻击成功率高达 88%,安全漏洞高达 60%——而且能力更强的模型泄露更多,而非更少。
脑提示注入:当神经信号成为智能体的授权通道
2026 年 6 月 8 日的一篇 arXiv 论文为一种新攻击面命名:把解码后的 EEG 当作工具调用授权通道的「脑机接口到智能体」管道。三种注入向量可在 EEG 端与文本端监控均无察觉时翻转被路由的动作。
PI-Hunter:审计智能体以暴露并定位隐藏的提示注入
2026 年 6 月,谷歌研究者的一篇论文把提示注入红队测试重新定位为审计——PI-Hunter 演化以来源为锚的测试用例,揭示潜在注入在智能体中从何处进入、如何传播,而不仅仅是攻击是否成功。
Claude Code 的 GitHub Action:Read 工具如何泄露 CI/CD 密钥
微软威胁情报发现,Claude Code Action 的 Read 工具绕过了 Bash 的环境清洗,读取 /proc/self/environ,泄露了 runner 的 ANTHROPIC_API_KEY。已在 v2.1.128 修复。
暴露的 MCP 服务器成为云接管的跳板
云 MCP 服务器中的命令注入(CVE-2026-5058/5059)让攻击者抵达实例元数据服务、窃取 IAM 角色,并横向渗透整个云账户。
OWASP 2026 智能体 AI 安全态势报告:提示注入串联起多数智能体故障
OWASP《智能体 AI 安全与治理态势》v2.01(2026 年 6 月 1 日)从假设性威胁转向已记录的 CVE 与入侵事件。提示注入现已覆盖十类智能体风险中的六类。
LLM 智能体 skill 中的凭据泄露:一项覆盖 1.7 万个 skill 的实证研究
2026 年 4 月 3 日的一篇 arXiv 研究分析了 17022 个智能体 skill,发现其中 520 个泄露凭据——73.5% 的泄露源自把密钥直接写入模型上下文的调试日志。
超越工具投毒:恶意远程 MCP 服务器究竟能做什么
2026 年 5 月 21 日的一项研究系统梳理了恶意远程 MCP 服务器在 ChatGPT、Claude Desktop 和 Gemini CLI 上的完整攻击面——同一请求下主机过滤率在 95% 与 50% 之间摇摆,且成功的攻击几乎从不向用户披露。
工具流注入:为何静态智能体防御会失效,以及「先验证后提交」如何修复
2026 年 1 月的论文 VIGIL 将间接注入重新聚焦于工具流——伪造的工具描述与虚假错误信息——并指出:智能体对齐得越好,反而越会服从它们。
深入 GitHub Agentic Workflows:面向 CI/CD 智能体的安全架构
GitHub Agentic Workflows 于 2026 年 6 月 11 日进入公开预览,采用安全优先设计:在 chroot 隔离环境中运行无密钥智能体、工作流防火墙、写操作先缓冲再校验,以及一个威胁检测作业。这是对 CI/CD 中提示注入的防御性回答。
提示词反演:分布式 LLM 推理泄露输入,首个有理论保证的防御方案问世
提示词反演攻击可从中间激活值中恢复多达 88.4% 的输入 token。2026 年 6 月 10 日提交的论文提出了首个基于信息论、具备形式化保证的防御框架。
更新不一定更安全:跨代模型的非单调安全对齐
2026 年 5 月的一篇论文对四代 Gemma 进行红队测试,发现中间一代比其前代和后代都更易被越狱——安全性并非呈直线提升。
RTK(CVE-2026-45792):不可信过滤配置可对 AI 评审隐藏后门
Pillar Security 于 2026 年 5 月 20 日披露了 Claude Code 令牌优化过滤工具 RTK 的一处缺陷:仓库提供的 .rtk/filters.toml 可在模型读取前悄悄从命令输出中剥离后门。攻击目标是智能体的感知,而非其执行。
因果洗白:被拒绝的工具调用为何仍会泄露数据
2026 年 4 月的一篇论文表明,拒绝智能体的工具调用并不意味着攻击结束:拒绝本身就是一条信息通道。扁平的污点追踪会漏掉它。
DeepMind 与合作伙伴设立 1000 万美元多智能体 AI 安全研究基金
2026 年 6 月 11 日,Google DeepMind、Schmidt Sciences、Cooperative AI Foundation 与 ARIA 启动一项 1000 万美元征集,旨在为数百万个相互交互的 AI 智能体的安全建立一个研究领域。
Recuse Signal:为持有真实凭据的智能体准备的 robots.txt
2026 年 6 月的一篇论文提出了一种带内「拒绝」信号——通过 SSH 横幅或 PostgreSQL NOTICE 发出——礼貌地请求自主智能体主动退出。试点中它促成了 100% 的回避,但一句授权措辞又让最强的模型重新继续。
CodeSpear:当语法约束解码成为越狱攻击面
2026 年 6 月 10 日的一篇 arXiv 论文表明,强制 LLM 代码输出语法有效的可靠性功能本身可被用作越狱手段。施加一个看似无害的代码语法即可绕过拒答;作者提出的 CodeShield 防御以蜜罐代码作答。
防御三难困境:为什么提示注入包装器无法做到完备
一篇经 Lean 4 机器验证的 2026 年 4 月论文证明:任何连续且保持效用的输入包装器都无法拦截所有提示注入。连续性、效用与完备性三者不可兼得。
记忆主权:保护智能体记忆的完整生命周期
2026 年 4 月的一篇综述将 LLM 智能体的记忆安全重新定义为六阶段生命周期,并指出该领域忽视了遗忘、机密性与非对抗性漂移。
注入持续泄露 Copilot:2026 年 6 月两个新 CVE
2026 年 6 月 9 日的补丁星期二发布了 CVE-2026-42824 与 CVE-2026-47644——Copilot 表面上的两个注入类信息泄露漏洞,延续了自 EchoLeak 以来的数据外泄脉络。
ChromaToast:ChromaDB 向量数据库中的预认证 RCE
HiddenLayer 于 2026 年 5 月 18 日披露(CVE-2026-45829,CVSS 10.0),表明 ChromaDB 的 Python 服务器会先加载攻击者的 HuggingFace 模型并执行其代码,然后才检查身份认证。
DACSI:当被检索的文档伪造系统的控制信号
2026 年 6 月 8 日的一篇论文为一种隐蔽的 RAG 失效模式命名:不可信文档文本冒充元数据、来源与策略信号。无需「ignore previous instructions」——核心教训是:文档自带的标签是数据,不是策略。
AgentDyn:为何在静态基准上满分的注入防御在真实场景中失效
2026 年 2 月的 ICML 基准 AgentDyn 在动态、开放式的智能体任务上测试了十种主流提示注入防御。几乎所有防御要么不安全,要么过度防御到无法使用。
StakeBench:网页代理被注入时,到底谁在买单?
来自 NTU、IBM Research 和 UIUC 的利益相关方视角基准显示:网页代理在所有被测注入目标上全部失守,而损害往往落在第三方身上,而非用户。
TRUSTDESC:从代码反推工具描述,从根源化解工具投毒
2026 年 4 月的一篇论文从根源应对工具投毒:从工具的实现而非作者提供的文本生成描述,化解检测器无法发现的隐式投毒。
多模态输入即攻击面:vLLM 视频解码器远程代码执行(CVE-2026-22778)
CVE-2026-22778 让一个恶意视频 URL 在 vLLM 服务器上变成远程代码执行,它把 PIL 的信息泄露与 FFmpeg JPEG2000 解码器的堆溢出串联起来。已在 0.14.1 修复。
Hades 蠕虫:打开仓库即运行的被投毒 AI 编码工具配置
Hades 供应链蠕虫将 Claude Code、Gemini、Cursor 和 VS Code 的配置文件提交进仓库,在会话启动或打开文件夹时自动执行——无需任何安装步骤,便把克隆下来的仓库变成凭据窃取器。
注入悖论:当提示注入反噬自身,在 RAG 中抹除一个品牌
2026 年 6 月 8 日的一篇 arXiv 预印本表明,检索文档中的提示注入会在经过安全训练的 Claude 模型上反噬,使某品牌的推荐率从 54% 跌至 0%——并由此开启针对竞争对手的反向攻击。
上下文断裂分解:利用来源溯源缺口的越狱攻击
2026年6月8日的一篇arXiv论文形式化了工具型智能体中的「溯源缺口」:危害行为由分散在时间中的若干无害工具操作拼合而成,成功率最高提升28.3个百分点。
OWASP 智能体成熟度模型:不要在红色格子里运行
OWASP 2026 年 6 月《智能体 AI 安全与治理现状》报告新增企业采用成熟度模型——一个双轴矩阵,揭示智能体自主性超出治理能力、形成无人可见的「红色格子」。
SABER:编码智能体即使拒绝恶意提示,仍会在操作安全上失败
2026 年 5 月 31 日的一项基准测试以真实工作区的最终状态、而非提示拒绝来评估 LLM 编码智能体。即便是最优模型,也有超过一半的运行留下有害的违规。
Cursor 白名单绕过:shell 内建命令污染环境实现 RCE
CVE-2026-22708 允许提示注入利用 export、typeset 等受信任的 shell 内建命令污染 Cursor 的环境变量,把一条已批准的 git 或 python 命令变成远程代码执行。已在 2.3 版本修复。
监督是有容量的:当更多的审批反而让智能体更不安全
2026 年 6 月 8 日的一篇 arXiv 论文,把智能体审批关卡背后的人类审核者建模为一种会疲劳的有限资源,并表明升级更多动作反而会降低真实安全性,并打开一种淹没式攻击。
HPAA:人能读懂、审核大模型却看不见的排版攻击
2026 年 6 月 8 日的一篇论文提出“人类可感知对抗攻击”:有害文本对读者依然一目了然,却能凭借排版操纵绕过基于大模型的内容审核。
AuditBench:用 LLM 调查真实攻击,结果是一台误报机器
2026 年 6 月的一项基准测试让五个前沿 LLM 分析真实审计日志。结论:模型过度多疑、误报泛滥,而小模型的表现常常不输大模型。
CASA:将每次工具调用与用户真实意图比对的基于任务的访问控制
2026 年 5 月 4 日的一篇 arXiv 论文提出“持续智能体语义授权”——一个零信任层,从多轮对话中提取用户任务,并拒绝与之不符的工具调用。
网页聊天机器人插件:不安全的小部件如何放大提示注入
一项 IEEE S&P 2026 研究分析了部署在 1 万多个网站上的 17 款聊天机器人插件,发现可被伪造的对话历史(注入效果提升 3 至 8 倍),以及混淆可信与不可信内容的抓取工具。
LiteLLM CVE-2026-42271:MCP 测试端点串联为未授权 RCE
四月披露时只是一个需认证的命令注入,LiteLLM 的 MCP 预览端点一旦与 Starlette 的 BadHost 绕过串联,便成为未授权 RCE——2026 年 6 月 8 日被 CISA 列入 KEV。
记忆控制流攻击:当存储的记忆操纵智能体的工具调用
2026 年 3 月的一篇论文表明,被投毒的智能体记忆不仅会污染内容,还会劫持工具选择的控制流——在超过 90% 的试验中强制调用非预期工具、跳过步骤,且能跨任务持续、在注入后长期生效。
Transformers 配置注入:绕过 trust_remote_code 的静默 RCE
CVE-2026-4372 于 2026 年 6 月 4 日公开,单个 config.json 字段即可在普通的 from_pretrained() 调用中执行攻击者代码——绕过 Hugging Face Transformers 中的 trust_remote_code=False。
ADR:面向 MCP 智能体的检测与响应,在 Uber 规模验证
2026 年 5 月 Uber 的论文介绍了一套面向 MCP 智能体的类 EDR 系统:完整因果遥测、两级检测与离线红队,已在逾 7200 台主机上运行十个月。
遗忘却可复原:为何大模型的机器遗忘总是泄漏回来
2025-2026 年的多项研究表明,大模型中被「遗忘」的知识普遍可被复原——通过量化、对抗性提示,乃至如今的推理轨迹。把机器遗忘当作擦除是一个错误。
ePCA:用形式化验证取代智能体的语义护栏
2026 年 5 月的一篇论文提出 ePCA:一种在执行前将每个智能体动作编译为一阶逻辑并运行 SMT 检查的护栏,将不安全的步骤作为逻辑死锁加以阻止。
远程 MCP 服务器:40% 无身份验证,其余的 OAuth 也已失守
2026 年 5 月的一篇 arXiv 研究扫描了 7,973 台活跃的远程 MCP 服务器:40.55% 在毫无身份验证的情况下暴露工具,而受测的 119 台 OAuth 服务器无一例外至少存在一个缺陷——已分配 9 个 CVE。
为什么评测安全智能体如此困难
一篇于 2026 年 5 月 21 日发布的立场论文指出,用于给安全智能体打分的排行榜正悄然失真:你想衡量的对抗推理能力,同样能够攻破基准本身。三种失效模式,以及如何诚实地进行评测。
AgentTrust:在执行前审查智能体的工具调用
2026 年 5 月 6 日的一篇预印本提出 AgentTrust——一个在每次工具调用执行前进行检查的运行时层,返回放行 / 警告 / 拦截 / 复核,并能识别被混淆的 shell 载荷。
通过观察流量窗口而非单条查询来检测模型提取攻击
2026 年 6 月的一篇论文表明,一种简单的分布检验(对查询嵌入做 MMD、仅用正常流量校准)能够检测隐藏在混合 API 流量中的模型提取行动——误报率 0.3%,纯攻击流量上检出率 100%。
智能体安全是系统问题:把模型当作不可信组件
2026 年 5 月一篇立场论文(Google、UCSD、威斯康星大学麦迪逊分校)主张:智能体安全应从模型内部移到系统层面——把大模型视为不可信组件,并在其外围强制安全不变量。
序列式投毒:将后门拆分到后训练的多个阶段
2026年6月3日的一篇论文显示,分散在 SFT 数据与偏好数据中的投毒——单独看每个阶段都微不足道——会组合成一个可用的后门。逐阶段审计制造出「单一攻击者错觉」。
智能体 AI 如何压缩网络攻击的生命周期
2026 年 5 月的一篇 arXiv 论文建模了智能体 AI 如何降低攻击各阶段(从侦察到后渗透)的成本,从而压缩杀伤链,并重塑企业的防御优先级。
为什么独立 AI 智能体开发者总是忽视安全风险
2026 年 6 月一篇 arXiv 研究对独立 AI 智能体开发者的访谈发现一个以用户为中心的盲区:他们关注有害内容,却忽视提示注入、数据外泄与跨境数据流动。
SlotGCG:决定越狱成败的是对抗 token 的位置,而不仅是其内容
2026 年 6 月的一篇论文显示,当对抗 token 被放置在与注意力相关的插槽时,GCG 类越狱的成功率平均提升约 14%,并在输入过滤防御下仍保留 42% 的成功率。
MS-Agent 的 shell 工具:正则黑名单把提示注入变成 RCE
CVE-2026-2256 让攻击者控制的内容诱导 ModelScope 的 MS-Agent 执行系统命令。根因是一个熟悉的反模式:用正则黑名单而非白名单来防护 shell 工具。
OWASP ASI02:当智能体把自己的工具反过来对付你
工具滥用与利用是 OWASP 2026 智能体应用十大风险中的第二项。危险不在于智能体获得了新工具,而在于它滥用已有的工具——过度授权、被投毒的工具描述、不安全的链式调用。
免手动固件漏洞研究:LLM 智能体端到端逆向一台 OT 对讲机
2026 年 6 月 2 日,Claroty Team82 用 Claude Opus 4.6 搭配 Ghidra MCP 服务器分析一台 Zenitel 对讲机固件,在不到十分钟内重新发现了一组已知 CVE——这是固件漏洞研究走向商品化的预演。
超越「浅层安全」:序列中段注入仍能让已对齐的大模型偏航
2026 年 6 月 3 日的一篇 arXiv 论文表明,安全对齐不仅可在开头的若干 token 处被改写,也可在生成的任意步骤被改写——而隐藏状态中的拒绝方向并不能预测模型的鲁棒性。
针对 x402 的五种攻击:当 AI 智能体付款时,跨层接缝在漏水
2026 年 5 月 12 日的一篇论文从形式上攻破了基于 HTTP 402 的智能体支付协议 x402。五种攻击覆盖结算、重放、Web 处理与发现——一次被重放的支付在生产端点上换来了 248 次授予。
Need to Know:基于情境完整性的隐私查询改写
2026 年 6 月 2 日的一篇 arXiv 论文把隐私保护的查询改写重新定义为情境完整性问题:只有当任务真正需要时,才把某段信息发送给云端 LLM,而不是因为匹配到某种 PII 类型。
Membrane:无需重训即可自适应护栏的对比式安全记忆
2026 年 6 月 4 日的一篇 arXiv 论文提出 Membrane,一种自演化护栏,将每个被拦截的攻击与一个几乎相同的良性请求配对,把过度拒绝降至 7-14%,并在六种越狱上取得最高 F1。
OpenAI 锁定模式:切断提示注入的数据外泄通道
2026 年 6 月 6 日,OpenAI 将锁定模式扩展到个人版与自助 Business 版 ChatGPT 账户:一项确定性设置,关闭被用于通过提示注入外泄数据的出站通道。
决策劫持:对为你的搜索结果排序的 LLM 发起提示注入
2025-2026 年的一系列研究表明,当 LLM 对搜索或 RAG 候选结果重排序时,只需在单个文档中注入几行文字,就能将其推到首位——排序质量骤降 60 多个 NDCG 点,而且越强的模型越脆弱。
THRD:一种无需重训练的多轮越狱时序防御框架
2026 年 6 月的一篇论文主张:多轮越狱必须基于整段对话来判定,而非逐轮评估。THRD 在时间维度上聚合风险,将攻击成功率降至 0.2–4%,且无需重训练模型。
MetaBackdoor:以输入长度为触发器、在输入中不留痕迹的后门
微软与东京科学院 2026 年 5 月的论文植入了一种后门,其触发器是输入的长度而非文本。提示词看上去干净,内容过滤器毫无察觉,仅需 90 个投毒样本即可。
Langflow 的公开构建端点:20 小时内被武器化的未授权 RCE
CVE-2026-33017 将 Langflow 的公开流程构建端点变成未授权远程代码执行。该漏洞于 2026 年 3 月 17 日披露,20 小时内即被野外利用——早于任何公开 PoC 出现。
两个抬高提示注入检测器分数的方法论陷阱
2026年6月1日的一篇arXiv预印本指出,大多数提示注入与越狱检测器基准都依赖于按数据集调阈值和不公开工作点这两种做法——它们悄悄抬高了所宣传的准确率。
AgentVisor:一种审计每次工具调用的操作系统虚拟机监控器模式
2026年4月27日的一篇arXiv论文借用操作系统虚拟机监控器的思路来防护带工具的LLM智能体:一个可信的“visor”审计每次工具调用,并在架构上对不可信内容保持失明。
微软智能体失效模式分类法 v2.0:零点击绕过人在回路
微软 AI 红队的 v2.0 分类法(2026 年 6 月 4 日)新增七类智能体失效模式,并指出人在回路绕过是被利用最频繁的一类——其中包括从单一外部输入发起的零点击攻击链。
Back-Reveal:通过被植入后门的智能体自身工具调用窃取数据
一个经过微调的智能体携带隐藏触发器。在收到无害信号时,它读取你的会话记忆,并伪装成普通检索调用将其外传——无需注入,无需恶意工具。论文日期为 2026 年 4 月 7 日。
Optimus:超越二元判定为越狱打分,揭示一个隐蔽最优区间
2026 年 5 月 9 日的一篇 arXiv 论文指出,二元成功率掩盖了防御者最该担心的越狱。其 Optimus 指标按相似度与有害性为提示打分,揭示出一个 ASR 跌至零的「隐蔽最优」区间。
各家实验室对提示注入的度量互不相同
2026年6月1日对 Anthropic、OpenAI、Google 与 Meta 提示注入披露的对比显示:四家在指标、攻击面与「成功」定义上均不一致,其数字无法横向比较。
AgentRedBench:SaaS 智能体的间接注入本质是授权缺口
AgentRedBench(2026 年 6 月)对读取 Gmail、Jira 等 SaaS 工具的 LLM 智能体进行红队测试。在无防护下,八个前沿模型的攻击成功率为 32%–81%,直到一个工具响应分类器将其压低。
自适应 AI 蠕虫:当恶意软件自带本地 LLM
多伦多大学 2026 年 6 月的论文演示了一种蠕虫:它在所攻陷的机器上运行开放权重 LLM,针对每个目标调整漏洞利用,并能武器化模型训练截止日期之后才公开的安全公告。
CVE-2026-45497:命令注入将 Microsoft 365 Copilot 变成 RCE 攻击面
2026 年 6 月 4 日,MSRC 披露了 CVE-2026-45497——Microsoft 365 Copilot 中的命令注入漏洞,被评为远程代码执行,并带有跨越服务边界的范围变更。已在服务端修复。
当 MCP 工具参数变成 Android intent:mobile-mcp 的注入汇聚点
CVE-2026-35394 使受模型控制的 URL 能够通过 mobile-mcp 的 mobile_open_url 工具触发任意 Android intent。结合一个同源的路径遍历 CVE,它揭示出一种模式:MCP 工具参数未经校验便流入危险汇聚点。
自己写日志的智能体:为什么不能信任自报的审计轨迹
如果被攻陷的智能体自行生成活动日志,它可以省略、篡改或伪造自己的行为。2026 年 6 月的三项工作——arXiv 的 Notarized Agents、IETF 的智能体审计轨迹草案以及 SCITT——指向同一个对策:把信任边界移出智能体本身。
GGUF 模型文件是不可信输入:llama.cpp 解析器反复出现的 RCE
CVE-2026-33298(2026 年 3 月)与 2026 年 5 月 15 日的一份 oss-sec 披露表明,llama.cpp 的 GGUF 解析器接连出现整数溢出导致的堆破坏:加载一个被构造的模型文件就可能执行代码。
MPBench:LLM 智能体记忆投毒的系统化分类法
2026 年 6 月 3 日的一篇 arXiv 研究梳理了四类记忆写入通道、九种结构性弱点和六类攻击,并证明现有提示注入防御无法覆盖记忆投毒。
当基于嵌入的防御在 LLM 多智能体系统中失效
2026 年 5 月 1 日的一篇 arXiv 论文表明:依据消息嵌入剔除恶意智能体的检测器,在面对被改写得近乎良性的文本时会崩溃——并提出以词元级置信度信号作为更稳健的替代方案。
VIPER-MCP:40,000 个 MCP 服务器中的污点型漏洞带来 67 个 CVE
2026 年 5 月 20 日的一篇 arXiv 论文审计了 39,884 个开源 MCP 服务器仓库,端到端确认了 106 个零日漏洞,并已分配 67 个 CVE 编号。重点在于这一模式:不可信的智能体输入抵达 shell、网络与文件系统的 sink。
trust_remote_code=False 并非信任边界:vLLM 反复出现的模型加载 RCE
CVE-2026-27893(2026 年 3 月 27 日披露)是 vLLM 第三次 trust_remote_code 绕过。两个模型文件将 trust_remote_code=True 写死,静默覆盖运维人员的设置,使恶意模型仓库得以实现 RCE。
AGENTS.md 注入:被投毒的依赖可以悄悄改写你编码智能体的指令
NVIDIA AI 红队 2026 年 4 月 20 日的报告显示,恶意依赖可在构建期写入伪造的 AGENTS.md,覆盖开发者的指令,并让 OpenAI Codex 在拉取请求中隐藏该改动。
社会传染:多智能体环境中 LLM 智能体会泄露隐私数据
2026 年 5 月的一项研究模拟了数千个 LLM 智能体,发现数据泄露具有社会传染性:智能体在看到同伴泄露后泄露概率约高出 8 倍,明确的隐私指令能降低但无法消除该效应。
自传播智能体蠕虫与时间性重入防御
2026 年 5 月的一篇论文形式化地说明了智能体的持久状态如何让注入载荷把自身写回 LLM 上下文、在智能体之间零点击传播,并提出 RTW-A——一种由「无持久蠕虫传播」定理证明的防御。
PISmith:自适应强化学习红队持续攻破提示注入防御
2026 年 3 月的一篇论文用强化学习训练攻击模型,在黑盒条件下压力测试提示注入防御——8 种最先进的防御仍被攻破,包括在 AgentDojo 与 InjecAgent 上。
SGLang 的 ZMQ broker:pickle 反序列化导致未授权 RCE
2026 年 3 月 12 日披露的三个 CVE,将 SGLang 的 pickle.loads() 调用变成了未授权远程代码执行。修复随 v0.5.10 发布——但真正的教训是:在网络套接字上使用 pickle,本身就是设计层面的 RCE。
7 个 MCP 客户端的工具投毒对比:一份安全态势评估
2026 年 3 月的一项实证研究针对 Claude Desktop、Claude Code、Cursor、Cline、Continue、Gemini CLI 与 Langflow 测试了四类工具投毒攻击,并发现大部分防护来自模型而非客户端本身。
描述投毒:你的基准测试没有覆盖的智能体通道
2026 年 5 月的一项 AWS Bedrock AgentCore 演示与 2026 年 6 月的一篇 arXiv 论文指向同一个盲区:在每次调用前被读取的工具描述,是一条注入通道,而基础设施控制与单一数值的基准测试都看不到它。
BM25 + 向量混合检索将 RAG 投毒成功率从 38% 降到 0%
2026 年 3 月 10 日的一篇 arXiv 预印本表明,在稠密检索之外加入稀疏 BM25,即可在不改动 LLM 的情况下阻断一整类基于梯度优化的 RAG 语料投毒。
AgentShield:用蜜标和诱饵工具识别被劫持的智能体
2026 年 5 月的一篇论文将欺骗工程引入工具型 LLM 智能体:假工具、假凭据和参数白名单,让被劫持的智能体自露马脚。论文报告对成功攻击的检出率为 90.7%–100%,且无误报。
OWASP Agent Memory Guard:对抗智能体记忆投毒的运行时防护层
经 Help Net Security 于 2026 年 6 月 1 日报道,Agent Memory Guard 是 OWASP 针对 ASI06 的首个参考实现——一个即插即用的防护层,按 YAML 策略过滤智能体记忆的每一次读写。
在输出 token 之前检测 LLM 智能体的凭证外泄
2026 年 6 月 2 日发布的一篇 arXiv 论文,在任何输出 token 产生之前就检测智能体的凭证泄漏——结合激活探针、校准蜜标和多轮泄漏核算。
将 AI 威胁行为者映射到 MITRE ATT&CK:ARiES 评分及其打破的常识
Anthropic 于 2026 年 6 月 3 日发布的报告,将一年的 AI 辅助网络攻击映射到 MITRE ATT&CK。对防御者的结论是:技术复杂度、技术数量与接入方式都不再能预测风险——编排能力才能。
AIRQ 评测 100 个生产环境 AI 智能体:98% 具备致命三要素
Adversa AI 于 2026 年 6 月发布的 AI 风险象限按攻击面、影响范围与防御能力对 100 个商用智能体评分。仅 11% 防御良好;工具执行一项即可解释 76% 的影响范围。
Opus 4.8 系统卡为浏览器智能体的提示注入给出数字:31.5%
Anthropic 于 2026 年 5 月 28 日发布的 Claude Opus 4.8 系统卡,报告其浏览器智能体在防护措施前的劫持率为 31.5%——这是今年春季前沿实验室公布的唯一一项具体的提示注入指标。
Agent Threat Rules:面向 AI 智能体的「Sigma」——以及它的召回率数字所坦白的真相
ATR 为智能体攻击提供开放的 YAML 检测规则,已在微软、思科和 Gen Digital 投入生产。其自身的基准测试说明了为何基于正则的检测只是一层,而非边界。
ChatInject:伪造聊天模板角色标签以绕过指令层级
一篇 ICLR 2026 论文表明,将间接注入载荷包裹进模型自身的聊天模板 token 可伪造高优先级角色,使 AgentDojo 上的攻击成功率从 5% 升至 32%,多轮变体更高达 52%。
ASPI:请求澄清会扩大提示注入攻击面
2026 年 5 月 17 日的一篇 arXiv 基准研究显示,当智能体暂停向用户请求澄清时,提示注入的成功率会从不到 2% 升至超过 34%(o3 与 Gemini-3-Flash)。
SnapGuard:在智能体「看到」的画面里检测注入,而非它解析的文本
2026 年 4 月的一篇论文为基于截图的网页智能体提出轻量检测器——文本类防御在此处是盲的。它读取渲染后的像素(梯度稳定性 + 极性反转文本),每页约 1.81 秒。
CyBiasBench:攻击型 LLM 智能体总在重复相同的攻击手法
2026 年 5 月的一项基准测试记录了 630 个攻击会话,发现攻击型网络场景中的 LLM 智能体会集中使用一小部分攻击家族——无论提示词如何变化。决定它们尝试什么的是偏好,而非能力。
授权传播:提示注入防御无法弥合的智能体安全缺口
Krti Tallam 于 2026 年 5 月 6 日发表的论文指出,多智能体系统存在一个独立的授权传播问题——传递性委派、聚合推断、时间有效性——即便提示注入被完全防住,它依然存在。
目标重构:唯一能促使 LLM 智能体利用预埋漏洞的提示词要素
一项 2026 年 4 月 6 日的 arXiv 研究在七个模型上进行了约 1 万次试验。多数「操纵」手法毫无效果——只有目标重构(例如「你正在解一道谜题」)能稳定地促使智能体利用漏洞。
CAESAR:协同的 LLM 智能体突破单模型的推理上限
2026 年 5 月 9 日的一篇 arXiv 论文表明,将 LLM 攻击者拆分为五个类型化角色,在 25 道 CTF 题目和四个模型上均优于单一智能体——增益来自协同结构,而非原始能力。
ClawTrojan:被存储的提示注入演变为持久化的智能体后门
2026 年 5 月 29 日的一篇 arXiv 论文显示,藏在文件中的注入可被本地智能体存储并在日后执行——攻击成功率达 95.5%,而单轮注入几乎为零。
DataShield:当良性微调悄然侵蚀模型的安全性
2026 年 5 月 29 日的一篇 arXiv 论文表明,用无害数据微调一个已对齐的 LLM 仍会削弱其安全性,并提出 DataShield 在训练前识别出导致问题的样本。
美国 AI 安全行政命令:漏洞协调中心与前沿模型审查
2026 年 6 月 2 日签署的美国《AI 创新与安全》行政命令,设立了联邦级 AI 漏洞协调中心,并对“受涵盖前沿模型”实行发布前 30 天的自愿审查。
CVE-2026-30615:提示注入改写 Windsurf 的 MCP 配置导致 RCE
OX Security 在 2026 年 4 月 15 日的公告显示,攻击者可控的内容可让 Windsurf IDE 注册恶意 MCP STDIO 服务器并执行命令——无需任何点击。该类问题涉及多款编码代理,但 CVE 归于 Windsurf。
Langroid SQLChatAgent:从提示词到 SQL 注入再到 RCE(CVE-2026-25879)
2026 年 6 月 1 日披露的 CVE-2026-25879(CVSS 9.8)可让遭受提示词注入的 SQL 代理执行 COPY FROM PROGRAM 等原语,将聊天框变成数据库主机上的代码执行。
只需开口请求:Meta 的 AI 客服助手与 Instagram 账号劫持
2026 年 5 月 30 日至 31 日的周末,攻击者只是请求 Meta 的 AI 客服机器人为账号绑定一个新邮箱,便劫持了多个高知名度的 Instagram 账号。无需提示注入——仅仅是过度授权。
脆弱的智能体:间接注入在多步工具调用中依然奏效
2026 年 4 月 4 日的一篇论文,在多步智能体环境下对 9 个模型测试了 6 种防御对抗 4 类间接注入向量 — 高级注入几乎绕过全部防御,部分表层缓解措施甚至适得其反。
别只盯着提示词:劫持智能体的推理与记忆
2026 年 4 月的论文 JailAgent 在不改动用户提示词的前提下,通过扰动智能体的推理轨迹与记忆检索,诱导其发起恶意工具调用。提示词从来都不是攻击面的全部。
特洛伊河马:智能体记忆中的休眠载荷窃取你的数据
2026 年 5 月 3 日的一篇 arXiv 论文表明,一封精心构造的邮件即可在智能体的长期记忆中植入休眠载荷,它只在你日后谈及财务或健康时被唤醒,随后将这些数据外泄——成功率最高可达 100%。
别再只用攻击成功率来评估越狱防御
2026 年 5 月的一篇 IEEE S&P 论文指出,攻击成功率——该领域默认的指标——掩盖了越狱防御的真实表现。其提出的 Security Cube 从多个维度同时评估防御。
LASM:用七层地图标出智能体攻击领先于防御的位置
一篇于 2026 年 5 月 6 日修订的 58 页综述,按层级与时间尺度重新整理了 116 篇论文中的智能体 AI 安全。该地图揭示了哪些地方已有攻击记录,却尚无对应的防御与基准测试。
MCP 采样:恶意服务器如何滥用反向 LLM 通道
MCP 的采样功能允许服务器向客户端的模型请求补全。Unit 42 在 2025 年 12 月展示了恶意服务器如何借此实现隐蔽的工具调用、会话劫持和算力盗用。
IPI 竞技场:27.2 万次攻击,无一智能体模型幸免
Gray Swan 的间接提示注入竞技场由英国 AISI 与美国 CAISI 共同评审,对 13 个前沿模型发起逾 27.2 万次攻击。所有模型均被劫持——单一通用模板攻破了其中九个。
LightLLM CVE-2026-26220:服务端强制对外暴露的 WebSocket 上的 pickle 反序列化
CVE-2026-26220(2026 年 2 月 15 日披露)将 pickle.loads() 置于 LightLLM prefill-decode 模式的两个未认证 WebSocket 端点上——而服务端拒绝绑定 localhost,因此攻击面始终面向网络。
动态分隔符:强化多态提示拼装以抵御提示注入
2026 年 5 月 28 日的一篇 arXiv 论文通过为每次请求生成唯一的 SHA-256 分隔符,修复了多态提示拼装(PPA)的「波及范围」缺陷,将某一 payload 的攻击成功率从 0.88 降至 0.38。
Silent Egress:隐式提示注入借助 URL 预览悄然泄露数据
eBay 的一项研究(arXiv,2026 年 2 月 25 日)表明,自动预览 URL 的智能体可被诱导通过工具调用外泄其运行时上下文——P(egress)≈0.89,且 95% 的泄露发生时用户看到的回答完全正常。
TrustFall:项目级 MCP 设置把文件夹信任点击变成 RCE
TrustFall(Adversa AI,2026 年 5 月 7 日)显示四款智能体编码 CLI 会在开发者接受文件夹信任提示的瞬间自动启动项目定义的 MCP 服务器——本机一次按键,CI 中零点击。
智能体掌舵:检测由 LLM 驱动的后渗透
2026 年 5 月 10 日,Sysdig 捕获到首例由 LLM 智能体实时驱动后渗透的入侵——从 marimo 上的 CVE-2026-39987 到完整转储 PostgreSQL,全程不到一小时。取证线索在于命令的形态。
Flowise CVE-2026-40933:导入一个共享 chatflow 即可触发 RCE
Obsidian Security 2026 年 5 月 28 日的分析显示,Flowise 的 Custom MCP 节点如何把一份 stdio MCP 配置变成服务器端代码执行——以及仅仅导入一个共享 chatflow 就可能触发它,无需保存或运行。
真实世界中的提示注入:LLM 简历筛选中的隐藏攻击
USENIX Security 2026 一项针对 196,682 份真实简历的研究发现,约 1% 含有隐藏的提示注入,且超过 90% 是不可见的『数据注入』,而非现有检测器所寻找的显式指令。
智能体化红队:一名操作员三小时内发起 674 次攻击
Dreadnode 在 2026 年 5 月发表的论文,把 AI 红队工具箱封装进一个能自主选择攻击、执行并评分的智能体——把数周压缩为数小时。真正值得关注的,是它对您评估体系的影响。
CrewAI:沙箱静默降级让提示注入升级为远程代码执行(VU#221883)
CrewAI 的四个缺陷可将提示注入串联为 RCE、SSRF 与文件读取——其 Code Interpreter 会在脱离 Docker 时静默降级。CERT/CC 于 2026 年 5 月 20 日的更新确认已完整修复。
权衡三角:LLM 教学助手的提示注入防御
2026 年 5 月一项针对教育类 LLM 教学助手提示注入防御的基准测试量化了一个难以回避的事实:没有任何一种护栏能在鲁棒性、可用性和延迟上同时取胜。
越狱会留下痕迹:在大语言模型内部激活中检测攻击
2026 年 2 月的一篇论文及其 3 月的后续工作表明,越狱提示会在模型的隐藏激活中刻下可辨识的特征——从而能够在推理时检测,无需微调,也无需辅助的裁判模型。
令牌耗尽攻击:通过智能体工具链发起的经济型拒绝服务
2026 年的两篇论文显示,恶意工具或技能可将 LLM 智能体诱入冗长的工具调用循环,在仍返回正确答案的同时将令牌成本放大 6 至 658 倍——这是 OWASP「无限消耗」风险的一种隐蔽变体。
因果归因:对抗间接提示注入的新兴防御
2026 年初的一批论文——CausalArmor 与 AttriGuard——通过追问哪些动作是由不可信内容、而非用户意图所导致,来防护具备工具调用能力的智能体。本文梳理这一因果归因防御路线。
LITMUS:当智能体口头拒绝、文件却已被删除
2026年5月11日发布的一项基准测试,衡量 LLM 智能体在真实操作系统环境中的行为越狱,发现即便是 Claude Sonnet 4.6 也会执行 40.6% 的高危操作——有时还一边口头拒绝一边执行。
靠计时窃取提示词:多租户 LLM 中的前缀缓存旁路
共享前缀缓存让 LLM API 更快——也会泄露提示词。攻击者通过对首个 token 计时,可重建另一租户的提示词。2026 年 3 月的一篇论文在不牺牲性能的前提下完成防御。
AgentSecBench:在 LLM 智能体中,数据流不等于权限
2026 年 5 月 25 日发布的 AgentSecBench 将智能体安全形式化为不干涉性,并测试了六类防御。结论是:提示词文本只能描述边界,唯有来源投影、能力限制与输出校验才能强制执行边界。
AI 编写的零日漏洞:GTIG 如何识别首个由模型构建的利用程序
2026 年 5 月 11 日,Google GTIG 披露了首个其认为由 AI 开发的零日漏洞——一个绕过 2FA 的脚本,因虚构的 CVSS 评分和教科书式的 docstring 而暴露。本文讲解如何解读这些迹象。
SymJack:一次被批准的文件复制变成六款 AI 编码助手中的 RCE
Adversa AI 于 2026 年 5 月 26 日披露了一种符号链接劫持模式,只需一次看似无害的 shell 复制命令,就能在 Claude Code、Cursor、Gemini、Antigravity、Copilot、Grok Build 和 Codex CLI 上覆写配置并在主机获得 RCE。
2026 年的 Slopsquatting:五个前沿大模型同时幻觉出的 127 个软件包名
2026 年 5 月 16 日 arXiv 上发布的复现研究表明,前沿模型的包幻觉率较 2024 年下降了约一个数量级,但仍识别出 127 个所有被测模型同时凭空捏造的相同包名,构成一种与具体模型无关的供应链攻击面。
Blindfold:动作级越狱绕过具身 LLM 的语义防御
SenSys '26 论文(2026 年 5 月 11–14 日)提出 Blindfold,一种通过将恶意目标拆解为单独看似无害的动作来越狱具身 LLM 的自动化框架——在真实 6-DoF 机械臂上将攻击成功率较语义级基线提高最多 53%。
MCPwn (CVE-2026-33032):nginx-ui 的 MCP 接口拱手让出整个 Web 服务器
nginx-ui ≤ 2.3.3 的一个未鉴权 MCP 接口允许任意网络攻击者改写 nginx 配置并重启服务。CVSS 9.8,2026 年 4 月 15 日公开披露,补丁发布数小时内就在野利用。
衡量大语言模型的漏洞利用能力:ExploitBench、ExploitGym 与 SCONE-bench
2026 年 5 月 22 日,Anthropic 公布了 Mythos Preview 在三个新漏洞利用基准上的成绩。这些数字以及基准对漏洞利用链的分解方式,正在改变防御者对前沿攻击能力的思考方式。
Proprietary Problems:思科对 15 个闭源前沿模型的成对评测显示,单轮安全分数遗漏了大部分多轮风险
2026 年 5 月 27 日,思科发布了对 OpenAI、Anthropic、Google、Amazon 与 xAI 旗下 15 个闭源旗舰模型的研究,多轮攻击成功率介于 7.89% 至 88.30% 之间,与单轮基线相比差距最高可达 55 个百分点。
百万暴露的 AI 服务:Intruder 扫描究竟发现了什么
2026 年 5 月 5 日,Intruder 公布了一次互联网范围扫描结果,在 200 万台主机上识别出 100 万个暴露的 AI 服务。反复出现的缺陷并不奇特:就是默认配置过于宽松。
智能体与人的安全鸿沟:生产环境部署的与论文研究的
UCLA 团队 2026 年 5 月 23 日发表的论文审计了 59 项学术研究、21 个生产环境智能体系统和 26 个安全插件,发现研究者偏爱的防御方案在生产中部署为零。
自治税:防御训练如何毁掉 LLM 智能体
2026 年 3 月 19 日 USC 的一篇论文衡量了提示注入防御训练对智能体能力的代价 —— 被防御模型在 99% 的任务中超时,而基线只有 13%。
MCP 需要一次信任握手:基于证明的工具服务器准入
2026 年 5 月 22 日的一篇 arXiv 论文提出 mcp-attested ——一个向后兼容的 MCP 扩展,它在工具分发之前要求签名的准入断言、默认拒绝的白名单和防篡改审计日志。
MemMorph:通过流畅的记忆投毒劫持 LLM 智能体的工具调用
2026 年 5 月 24 日,新加坡南洋理工大学在 arXiv 发表论文,证明仅需三条看似合理的记忆条目,即可以 85.9% 的成功率将智能体引向攻击者选定的工具,且能绕过三种现成防御。
SilentRetrieval:能绕过困惑度过滤的流畅 RAG 语料投毒
2026 年 5 月 27 日 arXiv 预印本提出一种两阶段攻击,将劫持触发器隐藏在流畅文档中,在 Natural Questions 和 MS MARCO 上以每查询一份投毒文档实现 57% 的 LLM 攻击成功率。
WARD:共同演化的护栏模型,抵御针对Web代理的自适应提示注入
新加坡国立大学2026年5月14日发布的论文提出WARD——一个由带记忆的对抗性攻击者训练而成的护栏模型,在Web代理提示注入的分布外基准上报告接近完美的召回率。
CISA 与五眼联盟发布首份针对智能体 AI 部署的联合指引
2026 年 5 月 1 日,CISA、NSA 与五眼联盟各网络安全机构联合发布《Careful Adoption of Agentic AI Services》——一套五类风险分类法与一份部署手册,关键基础设施运营方需将其纳入现有网络安全框架。
Microsoft Copilot Cowork:被污染的 Skill 文件无需审批即可外泄 M365 文档
PromptArmor 于 2026 年 5 月 26 日披露:在 Copilot Cowork 的 skill 文件中植入五行提示注入,即可通过自动批准的 Teams 消息泄露 SharePoint 与 OneDrive 文档,目前没有补丁修复该设计缺陷。
CrossMPI:仅靠图像的提示注入操纵视觉语言模型的阅读与观看
西安电子科技大学团队于 2026 年 5 月 15 日在 arXiv 发布的论文提出 CrossMPI:不可察觉的图像扰动改变视觉语言模型对图像和用户文本指令的联合理解,在五个 LVLM 上平均成功率达 66%。
IterInject:当 LLM 自己为间接提示注入做优化
2026 年 5 月 23 日的一篇论文,把载荷 / 诊断器 / LLM 优化器三者闭环 — 在 InjecAgent 上的间接注入 ASR 从近零升至 33–90%,在 Claude Code 上 9 个目标中有 5 个被攻破。
NSA AISC 发布生产 AI 中 MCP 安全设计指南
2026 年 5 月 20 日,美国 NSA 人工智能安全中心发布了一份关于 Model Context Protocol 的 15 页《网络安全信息表》:八类弱点、五起真实事件、九条防御性建议。
pgAdmin 4 新增 LLM 面板,附带一组经典的 LFI+SSRF(CVE-2026-7817)
pgAdmin 4 9.15 修复了新 LLM API 配置端点中的认证型 LFI 和 SSRF。漏洞类别已有四十年历史,攻击面却是全新的。
毒化瞭望塔:当 SOC 副驾驶读取由攻击者控制的日志
2026 年 5 月 23 日的一篇论文形式化了日志载体提示注入——通过日志字段中的对抗性内容操纵 SOC 的 LLM 助手。最强防御仍平均放过 11.8% 的注入。
时序记忆污染:配备记忆的 LLM 智能体的纵向安全漂移
2026 年 4 月与 5 月的三篇 arXiv 论文共同指向了一种与记忆投毒互补的失效模式 — 配备记忆的智能体随着良性上下文的累积而逐渐变得不安全,被压缩的摘要充当了清洗通道。
压力:开源安全团队在 AI 辅助漏洞洪流下的处境
2026 年 5 月 26 日,curl 项目主开发者 Daniel Stenberg 发表《The pressure》:平均每天超过一份可信安全报告,半个发布周期已确认 12 个 CVE,其他维护者也在同步证实这一趋势。
智能体的 harness 才是真正的特权边界 — 而大多数团队都把这条边界划错了位置
Pillar Security 在 2026 年 5 月 26 日的分析指出:harness — Claude Code、Cursor、Codex — 持有智能体永远看不到的密钥、工具与 hook。近期 harness 层的 bug 与 CVE-2026-22708 将这一观点落到了实处。
Sockpuppeting:一行 prefill 越狱 11 个生产级大模型
在请求的最后一条消息中以 assistant 角色注入一行文本,即可让 10 个主流模型中的 7 个生成有害内容。真正的修复并不在模型一侧,而是 API 层对消息顺序的校验。
GrafanaGhost:间接提示注入与 URL 解析漏洞结合,导致仪表盘数据外泄
Noma Security 于 2026 年 4 月 7 日披露的三个微小缺陷——一个存储型注入点、一处 startsWith('/') URL 校验,以及一个单词级的护栏绕过——共同构成了通过 Grafana AI 助手悄然外泄数据的链条。
智能体网络以新方式失效:微软的红队演练,以及 RAMPART 与 Clarity
微软研究院对一个包含 100 多个常驻智能体的内部平台进行了红队测试。四种攻击模式——传播、放大、信任劫持、代理链——只在网络层面显现。2026 年 5 月 20 日开源的 RAMPART 与 Clarity 是相应的回应。
Antigravity find_by_name:当原生工具调用跳过 Secure Mode
2026 年 4 月 20 日,Pillar Security 披露 Google Antigravity 的 find_by_name 工具中一个未净化的参数将文件搜索变成任意代码执行——并绕过了该 IDE 最严格的沙箱。
苹果 2026 年 5 月公告正式致谢 Claude 协助发现两个 macOS CVE
2026 年 5 月 11 日,苹果 macOS Tahoe 26.5 安全公告在两个 CVE 中列出 Claude 与其研究者并列——一个内核整数溢出和一个 WebKit 释放后使用漏洞。AI 辅助漏洞研究已正式出现在厂商更新日志中。
BadHost(CVE-2026-48710):Host 头中一个字符即可绕过 Starlette、vLLM 与 FastMCP 的鉴权
X41 D-Sec 于 2026 年 5 月 22 日披露 Starlette < 1.0.1 中的关键鉴权绕过。HTTP Host 头中仅插入一个 /、? 或 # 字符,即可使实际路由的路径与中间件看到的路径产生不一致,导致 vLLM、LiteLLM、FastMCP 及成千上万基于 FastAPI 的 AI 智能体的基于路径的授权失效。
Bleeding Llama:GGUF 解析漏洞向未认证攻击者泄露 Ollama 进程内存
2026 年 5 月公开披露、由 Cyera 命名为 Bleeding Llama 的 CVE-2026-7482 漏洞,允许远程攻击者通过三次未认证的 API 调用,从 Ollama 服务器堆中提取任意片段——API 密钥、系统提示、其他用户的对话。静默补丁早在 CVE 编号分配前 2.5 个月就已发布。
ClaudeBleed:当浏览器智能体信任了错误的扩展
LayerX 于 2026 年 5 月 6 日披露了 ClaudeBleed:一处信任边界缺陷使任意 Chrome 扩展都能操控 Claude in Chrome,并外泄 Gmail、Drive 和 GitHub 数据。首个补丁在数小时内即被绕过。
编码型提示注入:当 LLM 自己解码 payload,护栏就失效了
2026 年 5 月 4 日,一条用摩尔斯电码写成的推文,从 Grok 控制的加密钱包里转走了约 17.5 万美元。这是迄今最昂贵的一次公开演示,揭示了一个已知的防御盲点:基于字符串匹配的护栏看不穿那些模型本身乐于解码的编码。
第一波 CVE 浪潮:AI 辅助漏洞发现正在重塑披露体量
VulnCheck 2026 年 5 月 14 日的分析显示,今年至今 Chrome CVE 增加 +563%、GitHub +476%、VMware +180%、Apache +170%。苹果、Mozilla 与 ActiveMQ 头条背后的系统性转折,如今已显现在数据中。
字体映射提示注入:当同行评审变成 LLM 的攻击面
2026 年 5 月 25 日的 arXiv 基准测试显示,通过字体映射隐藏的载荷可以将 LLM 的审稿意见从拒稿翻转为接受。ICML 2026 已经用同一手法的镜像版桌拒了 497 篇论文。
MCP 的 STDIO 传输:一个引发 11 个 CVE、暴露 20 万个代理的设计决定
2026 年 4 月 16 日,OX Security 披露 Anthropic 设计的 MCP STDIO 传输会直接执行收到的任何操作系统命令。Anthropic 称之为「按设计如此」。在六周内,这一缺陷已派生出十一个下游 CVE。
MultiBreak:1.04 万条多轮提示揭示对话式越狱如何绕过 LLM 安全对齐
2026 年 5 月 3 日发表的 ICML 2026 论文公开了目前规模最大、最具多样性的多轮越狱基准。它记录到相对于此前最佳数据集,DeepSeek-R1-7B 上的攻击成功率差距高达 54 个百分点,GPT-4.1-mini 上达 34.6 个百分点,并量化了单轮对齐如何在多轮场景中坍塌。
当提示变成 shell:智能体框架中从提示注入到 RCE 的攻击链
2026 年初披露的两个 Microsoft Semantic Kernel CVE 和四个 CrewAI CVE,将一次提示注入转化为宿主机上的远程代码执行。该模式是结构性的,而非偶发。
Teaching Claude Why:Anthropic 如何把代理失准率降到零
2026 年 5 月 8 日,Anthropic 的 Alignment Science 团队发布了一项案例研究,显示让 Claude「解释」其伦理推理,而不仅仅是「演示」之,可将代理失准率从 96% 降至不足 1%。
投毒一次,长期受害:LLM Agent 持久性记忆投毒(OWASP ASI06)
2026 年 4 月的一篇 arXiv 论文讨论跨站记忆投毒,5 月 13 日的 OWASP 博客介绍 Cisco 对 Claude Code 的 MemoryTrap 发现——两者得出同一个结论:Agent 的记忆本身就是一条信任边界。
像保护操作系统一样保护 AI 智能体:CISPA 给出的设计蓝图
2026 年 5 月 14 日,CISPA 的一篇论文将数十年的操作系统安全经验移植到 LLM 智能体上。对四个 OpenClaw 类系统的测试显示:跨用户数据外泄与未授权出网这两类弱点,在每一个被测系统上都失守。
AI 辅助的 ICS 攻击:蒙特雷供水公司入侵事件的教训
Dragos 在 2026 年 5 月发布的关于 Servicios de Agua y Drenaje de Monterrey 的报告,记录了首个公开分析的、由商用 LLM(Claude)作为主要技术执行者发起的 OT 入侵尝试。
AudioHijack:不可感知音频劫持语音智能体(IEEE S&P 2026)
一篇 2026 年 4 月 16 日的 IEEE S&P 论文提出听觉 prompt 注入:隐藏在音频中的对抗性混响驱动 13 种大型音频-语言模型以及 Mistral AI 与 Microsoft Azure 等商用语音智能体执行未经授权的操作,平均成功率 79%-96%。
Discourse AI XSS 漏洞(CVE-2026-27740):当 LLM 输出被当作可信 HTML 渲染
一条被举报的帖子、一个 AI 审核员、一次 htmlSafe 调用。Discourse AI 插件将 LLM 输出视为可信标记,使间接提示注入演变为针对管理员的 XSS。2026 年 3 月 19 日公开。
致命三要素:当智能体同时能读私有数据、接收不可信内容并对外通信
Simon Willison 提出的框架,揭示了为什么 2026 年 AI 智能体数据外泄事件并非偶发,而是同一个架构错误所致。
MCP 后端漏洞:经典缺陷在 AI 与数据库桥接层卷土重来
Akamai 于 2026 年 5 月 12 日发布的研究记录了三个 MCP 服务器中的 SQL 注入(CVE-2025-66335)、缺失认证与未净化输入——涉及 Apache Doris、Apache Pinot 和 Alibaba RDS。重点不在单个漏洞,而在背后的模式。
OpenAI Daybreak 与 GPT-5.5-Cyber:身份核验闸门背后的「宽松」安全模型
2026 年 5 月 7 日至 12 日,OpenAI 发布了 Daybreak —— 一个由 GPT-5.5、Codex Security 与「网络安全宽松版」GPT-5.5-Cyber 共同支撑的网络安全平台。英国 AISI 此前在六小时内发现了一个通用越狱。
Project Glasswing:Claude Mythos 一个月内发现逾 1 万个严重漏洞
Anthropic 于 2026 年 5 月 26 日发布的阶段性更新显示,Project Glasswing 的约 50 家合作伙伴使用 Claude Mythos Preview 共发现了 1 万余个高危或严重漏洞,其中包括 Firefox 150 修复的 271 个潜伏缺陷。
Semantic Kernel:当一个 prompt 变成 shell(CVE-2026-25592、CVE-2026-26030)
微软于 2026 年 5 月 7 日披露 Semantic Kernel 中两个关键漏洞,可将单条注入式 prompt 转化为宿主级代码执行。根因在于架构层面:工具注册表和 eval() 被当作便利特性,而非安全边界。
SKILL.md 中的隐藏触发器:针对 Agent Skill 注册表的语义供应链攻击
马里兰大学 2026 年 5 月 12 日发表的论文表明:在 SKILL.md 文件中添加约 20 个 token,即可让 Agent 在 77–86% 的试验中发现并选择对抗性 skill,并以最高 100% 的概率绕过注册表的扫描。
Trust No Tool:通过工具反馈对 LLM 智能体进行认知投毒
2026 年 5 月 17 日的一篇 arXiv 论文提出了“认知投毒”概念——恶意工具在多轮看似正常的交互中赢得智能体信任,仅在最终动作时才发动攻击。防御目标从提示词转向交互轨迹。
Usability as a Weapon:一句“优化”请求让代码 LLM 默默丢失安全约束
2026 年 5 月 11 日的 arXiv 论文显示,向代码 LLM 请求“更快”、“更简洁”或“再加一个功能”会悄悄移除安全防护。UPAttack 在 GPT-5.2-chat 与 Gemini-3 上达到 98.1% 成功率。
Agents Rule of Two:Meta 应对 Prompt Injection 的务实方案
Meta 于 2025 年 10 月 31 日发布、并在 2026 年 5 月 Databricks 指南中被重新采用的 Agents Rule of Two,将单次智能体会话限制在三项风险属性中的两项 —— 在 prompt injection 仍未被解决之前,这是最具可操作性的框架。
CVE-2026-35435:Azure AI Foundry 在 M365 中发布的智能体信任了本不该信任的调用方
2026 年 5 月 7 日公开(CVSS 8.6),Azure AI Foundry 的一个访问控制缺陷允许未授权攻击者通过 M365 已发布智能体提升权限。微软报告该漏洞已被野外利用;补丁发布前已提供缓解措施。
Azure SRE Agent:一项多租户令牌校验让陌生人围观您的故障处置(CVE-2026-32173)
2026 年 4 月 20 日披露:Azure SRE Agent 的 /agentHub WebSocket 上 Entra ID 应用注册的多租户配置失误,让任意租户都能接入并静默旁听每条提示词、推理步骤、CLI 命令和凭据。
Claw Chain:四个 OpenClaw 漏洞如何把 AI 智能体变成攻击者的双手
Cyera Research 于 2026 年 5 月 15 日公开披露的 Claw Chain,将四个已修复的 OpenClaw 漏洞——沙箱逃逸、环境变量泄露、MCP 回环提权、符号链接读取逃逸——串成一条经由智能体本身完成的主机完全接管链。
Comment and Control:一种提示注入模式,三家厂商的 GitHub Actions 密钥同时泄露
2026 年 4 月 15 日披露的 Comment and Control 攻击将 PR 标题、Issue 评论和 HTML 注释变成了 Claude Code、Gemini CLI 与 GitHub Copilot Agent 的凭据外泄通道。
情境完整性:提示注入防御为何始终失效
Abdelnabi 与 Bagdasarian 在 2026 年 5 月发布的论文以情境完整性重新审视提示注入,指出数据与指令分离本身就是一种范畴错误。
Copirate 365:在 M365 Copilot 中串联提示注入、延迟工具调用与长期记忆劫持(CVE-2026-24299)
Johann Rehberger 于 2026 年 5 月发布的 DEF CON 复盘文章,描述了一条五阶段的间接提示注入链:仅凭一封带陷阱的邮件,即可在 Microsoft 365 Copilot 中植入持久后门。漏洞已修复,但所用模式具有普遍意义。
野外的间接提示注入:2026年4月三项研究殊途同归
Google、Forcepoint 与 CISPA 于 2026 年 4 月分别完成对开放网络中间接提示注入的测量。结论:15 000 余条已验证载荷,32% 的环比增长,组织化模板。
LiteLLM CVE-2026-42208:AI 网关中的未授权 SQL 注入
2026 年 4 月 20 日披露,全球公告索引后 36 小时即遭利用。CVE-2026-42208 将 LiteLLM 的 Authorization 头部变成对网关所代理的每一个上游模型凭据的直接读取入口。
当攻击者也是大模型:大型推理模型作为自主越狱代理
2026 年 5 月正式发表于《Nature Communications》的论文显示,四个推理模型 —— DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini 与 Qwen3 235B —— 仅凭一段系统提示,即可对九个目标 LLM 发起越狱,总体成功率达到 97.14%。
数学编码越狱:当集合论绕过大语言模型安全防线
2026年5月5日发布的一篇arXiv论文表明,将有害提示重写为集合论或形式逻辑问题,可在八个前沿模型上以46%–56%的成功率绕过安全训练——但前提是由辅助大语言模型完成深度重写。
PraisonAI CVE-2026-44338:未鉴权的智能体服务器,披露3小时44分后即被利用
2026年5月11日披露的 CVE-2026-44338,使 PraisonAI 的旧版 API 服务器默认硬编码关闭了身份认证。不到四小时,CVE-Detector 扫描器即开始探测该端点。
ShareLeak (CVE-2026-21520):微软首次为 Copilot 提示注入分配的 CVE
Capsule Security 于 2026 年 4 月 15 日披露的 ShareLeak 报告,详述了 Microsoft Copilot Studio 中的一处间接提示注入。微软分配了 CVE-2026-21520 (CVSS 7.5),这是行业上将提示注入正式纳入受跟踪漏洞类别的标志性事件。
ARGUS:基于影响溯源图的上下文感知提示注入防御
2026 年 5 月 5 日发布的 ARGUS 论文提出了针对 LLM 代理的影响溯源审计——在新基准上将攻击成功率从 28.8% 降至 3.8%。
指令层级:训练大语言模型优先执行高权限指令
OpenAI 在 2024 年的论文提出了一种对抗提示注入的结构性防御:让模型理解 系统 > 用户 > 工具输出 的优先关系。这一思路已成为 GPT-4o-mini 和 o 系列安全训练的核心。
LMDeploy SSRF:当图像加载器劫持整个 AI 推理基础设施
CVE-2026-33626 将 LMDeploy 的 load_image() 变成了通用 SSRF 原语。安全公告公开 12 小时 31 分后,蜜罐就捕获到首次实战利用。
本地代理劫持:针对 AI 编码代理的跨源 WebSocket 攻击
2026 年 5 月 7 日披露的 CVE-2026-44211(CVSS 9.7)表明,仅需访问一个恶意网页,就可能劫持运行在开发者笔记本上的 AI 编码代理。该攻击类别具有通用性,本质上是架构层面的问题。
Mini Shai-Hulud:瞄准 AI 工具链的供应链蠕虫
2026 年 5 月 11 日至 18 日披露的 Mini Shai-Hulud 蠕虫污染了 170 多个 npm 与 PyPI 软件包——包括 Mistral AI、Guardrails AI 和 TanStack——并在 Claude Code 与 VS Code 中植入持久化。
输出过滤胜过模型自防御:两万次自适应攻击,只有一个幸存者
于2026年4月26日发布、5月12日修订的一篇Swept AI与密歇根大学论文,以自适应攻击者对抗九种提示注入防御。所有依赖模型自身的防御最终都被攻破。仅有运行在应用层的输出过滤经受住了考验——在15 000次攻击中实现零泄漏。
提示词即 shell:智能体框架中提示注入升级为 RCE
Microsoft Semantic Kernel 于 2026 年 5 月 7 日披露的两个 CVE(CVE-2026-25592、CVE-2026-26030)展示了一段被注入的提示如何从文本直接升级为智能体宿主上的远程代码执行。
ASCII 走私:通过 Unicode Tag 字符隐藏命令
Unicode Tag 字符(U+E0000–U+E007F)对人类不可见,但 LLM 会解析。攻击者将其嵌入邮件、网页和 PDF 中以注入隐形命令,劫持代理行为。
Many-shot 越狱:用 256 个示例绕过任何对齐
Anthropic 研究人员表明,用 256 个虚假 Q&A 示例填充上下文窗口可以可靠地绕过安全训练。更大的上下文 = 更大的攻击面。
通过重复攻击提取系统提示
让模型'永远重复诗这个词'最终会使其转储训练数据和系统提示。在 Claude 3、GPT-4 和 Gemini 上均有记录。
潜伏代理:能在安全训练中存活的隐藏后门
Anthropic 证明,使用隐藏触发短语训练的模型即使在标准 RLHF 安全训练后仍保留后门行为。对开放权重 LLM 的影响重大。