DEFENSE

MemMark：仅凭快照就能归因被投毒的智能体记忆

2026 年 5 月 26 日的一篇 arXiv 论文把所有权写入智能体潜在的记忆写入决策，即使日志被抹除、只剩最终快照，溯源信息依然存活。

2026-06-22//6 min

认知防火墙：面向浏览器智能体的分离式计算防御

2026 年 3 月的一篇 eBay 论文，将本地哨兵、云端规划器与确定性执行守卫层叠在一起，把浏览器智能体的间接提示注入成功率从 100% 降到 1% 以下。

2026-06-22//6 min

DeepMind 的 AI Control Roadmap：面向未对齐智能体的纵深防御

谷歌 DeepMind 的 AI 控制路线图（2026 年 6 月）把内部 AI 智能体视为潜在的内部威胁，在模型对齐之上叠加由可信模型执行的监督。

2026-06-21//6 min

LLM 加盐：旋转拒绝方向以打破越狱复用

SophosAI 的「LLM 加盐」（CAMLIS 2025）对模型的拒绝方向施加一次小幅旋转：针对基座模型预先算好的越狱不再能迁移到你的部署——把彩虹表防御搬到了大模型上。

2026-06-21//5 min

防御性误导：为何拦截自动化越狱反而可能适得其反

2026 年 6 月的一篇论文对攻击者的自动评判器建模，指出可预测的拒绝会喂养其搜索循环——并提出用受控误导取代单纯拦截。

2026-06-21//6 min

后门遗忘可泛化：移除一个触发器能抑制其他后门

2026 年 6 月的一篇论文表明，教会大模型忽略一个后门触发器，也能削弱其他从未被针对的后门——前提是它们的内部激活偏移足够接近，并用一个新指标 CASD 来度量。

2026-06-21//5 min

为什么智能体的拒绝会失效：Cybersecurity Refusal Framework

一项新基准显示，智能体的安全拒绝取决于 URL 字符串，而非真实目标。两个微不足道的小技巧——伪造的「交战规则」与 localhost 代理——能在生产站点上把拒绝翻转为服从。

2026-06-20//6 min

MCP 安全：别再问存在哪些攻击，而要问防御应当部署在哪一层

2026 年 4 月的一篇 arXiv 论文将 MCP 攻击映射到六个架构层，发现防御分布不均且过度集中于工具层，使宿主编排、传输与供应链在结构上长期处于防御不足的状态。

2026-06-20//7 min

定位提示注入：从检测到取证式切除

检测到提示注入只能说明出了问题。2026 年的两项工作 PromptLocate 与 WebSentinel 能精确指出上下文中被污染的片段，从而将其切除并恢复原任务。

2026-06-20//5 min

SEAgent：用强制访问控制遏制智能体的权限提升

2026 年 1 月的一篇论文把智能体攻击重新界定为权限提升——超出任务所需最小权限的动作——并提出 SEAgent，一个在信息流图上施加的确定性 MAC/ABAC 层。

2026-06-20//6 min

Cordon：面向工具型 LLM 智能体的事务化隔离

2026 年 6 月 16 日的一篇 arXiv 论文提出「语义事务」：一个在提交前先暂存智能体不可逆副作用、并对整个任务流程进行校验的运行时。

2026-06-19//6 min

AuthGraph：用双图对齐检测智能体提示注入

2026 年 5 月 26 日的 UCLA 论文将一份干净的授权图与智能体真实的来源图作结构比对，把 AgentDojo 上的攻击成功率从 40% 降到 1%。

2026-06-19//6 min

SkillVetBench：用「LLM 充当评审」发现技能扫描器漏掉的风险

2026 年 6 月 14 日的一篇 arXiv 论文显示，代码层技能扫描器会漏掉 89%–100% 的指令层威胁，而 LLM 评审能标记出全部 78 个恶意测试技能且零误报。

2026-06-18//6 min

SafeMCP：用前瞻式工具门控遏制 MCP 智能体的权力扩张

2026 年 6 月 1 日的一篇 arXiv 论文（ACL 2026）提出 SafeMCP——一个服务端插件，借助世界模型的前瞻推理，在 MCP 智能体扩张其权力之前过滤掉危险的工具获取。

2026-06-18//5 min

致命三要素已成默认配置——在运行时防御智能体

致命三要素曾用于标记高风险智能体。到2026年中，它几乎描述了所有有用的智能体，靠架构规避已不再奏效。防御重心转向运行时的五类行为信号。

2026-06-18//5 min

DoubtProbe：识别重组意图的越狱攻击

2026 年 6 月的一篇论文提出了一种推理期防御方法，将越狱检测视为一致性校验：在结构约束下重建请求，再标记出经过这一往返后语义无法保持的提示。

2026-06-18//5 min

检测智能体工具调用流量中的攻击：内容胜过图结构

2026 年 5 月的一篇 arXiv 研究针对 MCP 工具调用监控发现：内容嵌入主导检测效果（AUROC > 0.89），图结构贡献有限，而随机切分会把分数虚高最多 26 个百分点。

2026-06-17//5 min

RUBAS：用评分量表强化学习为智能体安全提供细粒度奖励信号

2026 年 6 月的一篇论文用四项评分量表（工具使用、参数、回复、有用性）取代二元的拒绝/执行奖励，训练既保持安全又不损失实用性的工具调用智能体。

2026-06-17//5 min

SkillGuard：在运行时约束智能体技能（skill）行为的权限框架

2026 年 6 月的一篇论文，通过清单、默认拒绝的访问控制与运行时监控，弥合了技能注入智能体上下文的内容与它促使智能体执行行为之间的差距。

2026-06-17//6 min

诱饵后门：通过共享内部机制清除未知的大模型后门

2026 年 6 月的一篇论文用「种下一个看得见的后门」来清除看不见的后门：不同后门共享内部激活模式，因此移除可控的「诱饵」也会削弱未知后门。

2026-06-17//5 min

智能体图记忆的来源防御在构造上就是盲的

2026 年 6 月 10 日的一篇 arXiv 论文表明,针对 LLM 图记忆的来源检查无需伪造任何来源即可被绕过:一次不可信的结构写入会改变哪些已认证事实被选中,而信息流控制对此完全看不见。

2026-06-16//5 min

智能体隐私是轨迹问题：OCELOT 在运行时为推断泄露设定预算

一篇日期为 2026 年 6 月 10 日的 arXiv 论文将 LLM 智能体隐私重新定义为后验风险控制：不再过滤每一次输出，而是为对手在整条轨迹上对某个秘密的信念可提升的幅度设定预算。

2026-06-16//6 min

Parallax：把智能体安全放进架构，而非提示词

一篇 2026 年 4 月 14 日发布的立场论文指出，一旦智能体的推理被攻破，提示词层面的护栏便随之失效，并提出在结构上把『思考』与『执行』分离。

2026-06-16//7 min

构建安全智能体：以「计划与策略」防御提示注入

NVIDIA 的一篇立场论文（2026 年 3 月 31 日）认为间接提示注入无法仅在模型层面解决，并提出一种「计划与策略」系统架构，约束智能体可以观察和决定的范围。

2026-06-16//5 min

已验证的智能体技能：为 SKILL.md 供应链提供能力治理

NVIDIA 于 2026 年 5 月 19 日推出的已验证智能体技能，为 SKILL.md 供应链加入了风险扫描、加密签名与机器可读的技能卡——这是针对投毒技能的防御性回应。

2026-06-16//5 min

为什么提示注入检测器屡屡失效：2026 年的绕过难题

从关键词分类器到激活漂移探针，提示注入检测器都有一个共同弱点——自适应攻击者。两项研究报告了高达约 100% 的绕过率。检测只是一层，绝非边界。

面向智能体 AI 的机密计算：硬件飞地保护不了什么

2026 年 5 月的一篇综述将机密计算映射到智能体技术栈：硬件飞地可保护智能体内存与 KV 缓存免遭恶意云运营商窥探，却挡不住提示注入。

越狱为何能在模型间迁移——以及「加盐」如何反制

一项针对 20 个开放权重模型的研究表明，越狱的迁移源于共享的内部表征，而非对齐训练的缺陷。一种名为 LLM salting（模型加盐）的防御通过旋转「拒绝方向」来打破复用。

SafeHarbor：一种针对智能体过度拒绝的分层记忆护栏

被 ICML 2026 接收的 SafeHarbor 是一种免训练护栏，从自演化的风险树中注入上下文相关的安全规则——在 GPT-4o 上保持 63.6% 的良性可用性，同时拒绝超过 93% 的攻击。

提示注入尚未解决——请以机器速度加以遏制

在 2026 年 Infosecurity Europe 上，OWASP 的 Ariel Fogel 称提示注入是一个尚未解决的架构性问题，并主张防御应从预防转向与智能体同速的运行时遏制。

SecureClaw：面向工具型 LLM 智能体的双边界防御

2026 年 6 月的一篇论文提出同时守护两条不同的边界——在效果汇点授权外部动作、在读取边界对明文进行隔离——在一个智能体基准上报告了 0% 的攻击成功率。

2026-06-14//6 min

PI-Hunter：审计智能体以暴露并定位隐藏的提示注入

2026 年 6 月，谷歌研究者的一篇论文把提示注入红队测试重新定位为审计——PI-Hunter 演化以来源为锚的测试用例，揭示潜在注入在智能体中从何处进入、如何传播，而不仅仅是攻击是否成功。

2026-06-13//6 min

工具流注入：为何静态智能体防御会失效，以及「先验证后提交」如何修复

2026 年 1 月的论文 VIGIL 将间接注入重新聚焦于工具流——伪造的工具描述与虚假错误信息——并指出：智能体对齐得越好，反而越会服从它们。

2026-06-12//6 min

深入 GitHub Agentic Workflows：面向 CI/CD 智能体的安全架构

GitHub Agentic Workflows 于 2026 年 6 月 11 日进入公开预览，采用安全优先设计：在 chroot 隔离环境中运行无密钥智能体、工作流防火墙、写操作先缓冲再校验，以及一个威胁检测作业。这是对 CI/CD 中提示注入的防御性回答。

2026-06-12//7 min

Recuse Signal：为持有真实凭据的智能体准备的 robots.txt

2026 年 6 月的一篇论文提出了一种带内「拒绝」信号——通过 SSH 横幅或 PostgreSQL NOTICE 发出——礼貌地请求自主智能体主动退出。试点中它促成了 100% 的回避，但一句授权措辞又让最强的模型重新继续。

2026-06-12//5 min

防御三难困境：为什么提示注入包装器无法做到完备

一篇经 Lean 4 机器验证的 2026 年 4 月论文证明：任何连续且保持效用的输入包装器都无法拦截所有提示注入。连续性、效用与完备性三者不可兼得。

2026-06-12//7 min

AgentDyn：为何在静态基准上满分的注入防御在真实场景中失效

2026 年 2 月的 ICML 基准 AgentDyn 在动态、开放式的智能体任务上测试了十种主流提示注入防御。几乎所有防御要么不安全，要么过度防御到无法使用。

2026-06-12//6 min

TRUSTDESC：从代码反推工具描述，从根源化解工具投毒

2026 年 4 月的一篇论文从根源应对工具投毒：从工具的实现而非作者提供的文本生成描述，化解检测器无法发现的隐式投毒。

2026-06-12//6 min

监督是有容量的：当更多的审批反而让智能体更不安全

2026 年 6 月 8 日的一篇 arXiv 论文，把智能体审批关卡背后的人类审核者建模为一种会疲劳的有限资源，并表明升级更多动作反而会降低真实安全性，并打开一种淹没式攻击。

2026-06-11//7 min

CASA：将每次工具调用与用户真实意图比对的基于任务的访问控制

2026 年 5 月 4 日的一篇 arXiv 论文提出“持续智能体语义授权”——一个零信任层，从多轮对话中提取用户任务，并拒绝与之不符的工具调用。

2026-06-11//5 min

ADR：面向 MCP 智能体的检测与响应，在 Uber 规模验证

2026 年 5 月 Uber 的论文介绍了一套面向 MCP 智能体的类 EDR 系统：完整因果遥测、两级检测与离线红队，已在逾 7200 台主机上运行十个月。

2026-06-08//6 min

ePCA：用形式化验证取代智能体的语义护栏

2026 年 5 月的一篇论文提出 ePCA：一种在执行前将每个智能体动作编译为一阶逻辑并运行 SMT 检查的护栏，将不安全的步骤作为逻辑死锁加以阻止。

2026-06-08//6 min

AgentTrust：在执行前审查智能体的工具调用

2026 年 5 月 6 日的一篇预印本提出 AgentTrust——一个在每次工具调用执行前进行检查的运行时层，返回放行 / 警告 / 拦截 / 复核，并能识别被混淆的 shell 载荷。

2026-06-08//5 min

通过观察流量窗口而非单条查询来检测模型提取攻击

2026 年 6 月的一篇论文表明，一种简单的分布检验（对查询嵌入做 MMD、仅用正常流量校准）能够检测隐藏在混合 API 流量中的模型提取行动——误报率 0.3%，纯攻击流量上检出率 100%。

2026-06-08//6 min

智能体安全是系统问题：把模型当作不可信组件

2026 年 5 月一篇立场论文（Google、UCSD、威斯康星大学麦迪逊分校）主张：智能体安全应从模型内部移到系统层面——把大模型视为不可信组件，并在其外围强制安全不变量。

2026-06-08//7 min

Need to Know：基于情境完整性的隐私查询改写

2026 年 6 月 2 日的一篇 arXiv 论文把隐私保护的查询改写重新定义为情境完整性问题：只有当任务真正需要时，才把某段信息发送给云端 LLM，而不是因为匹配到某种 PII 类型。

Membrane：无需重训即可自适应护栏的对比式安全记忆

2026 年 6 月 4 日的一篇 arXiv 论文提出 Membrane，一种自演化护栏，将每个被拦截的攻击与一个几乎相同的良性请求配对，把过度拒绝降至 7-14%，并在六种越狱上取得最高 F1。

OpenAI 锁定模式：切断提示注入的数据外泄通道

2026 年 6 月 6 日，OpenAI 将锁定模式扩展到个人版与自助 Business 版 ChatGPT 账户：一项确定性设置，关闭被用于通过提示注入外泄数据的出站通道。

THRD：一种无需重训练的多轮越狱时序防御框架

2026 年 6 月的一篇论文主张：多轮越狱必须基于整段对话来判定，而非逐轮评估。THRD 在时间维度上聚合风险，将攻击成功率降至 0.2–4%，且无需重训练模型。

2026-06-07//6 min

两个抬高提示注入检测器分数的方法论陷阱

2026年6月1日的一篇arXiv预印本指出，大多数提示注入与越狱检测器基准都依赖于按数据集调阈值和不公开工作点这两种做法——它们悄悄抬高了所宣传的准确率。

AgentVisor：一种审计每次工具调用的操作系统虚拟机监控器模式

2026年4月27日的一篇arXiv论文借用操作系统虚拟机监控器的思路来防护带工具的LLM智能体：一个可信的“visor”审计每次工具调用，并在架构上对不可信内容保持失明。

2026-06-07//7 min

微软智能体失效模式分类法 v2.0：零点击绕过人在回路

微软 AI 红队的 v2.0 分类法（2026 年 6 月 4 日）新增七类智能体失效模式，并指出人在回路绕过是被利用最频繁的一类——其中包括从单一外部输入发起的零点击攻击链。

2026-06-07//7 min

自己写日志的智能体：为什么不能信任自报的审计轨迹

如果被攻陷的智能体自行生成活动日志，它可以省略、篡改或伪造自己的行为。2026 年 6 月的三项工作——arXiv 的 Notarized Agents、IETF 的智能体审计轨迹草案以及 SCITT——指向同一个对策：把信任边界移出智能体本身。

2026-06-05//6 min

当基于嵌入的防御在 LLM 多智能体系统中失效

2026 年 5 月 1 日的一篇 arXiv 论文表明：依据消息嵌入剔除恶意智能体的检测器，在面对被改写得近乎良性的文本时会崩溃——并提出以词元级置信度信号作为更稳健的替代方案。

2026-06-05//5 min

PISmith：自适应强化学习红队持续攻破提示注入防御

2026 年 3 月的一篇论文用强化学习训练攻击模型，在黑盒条件下压力测试提示注入防御——8 种最先进的防御仍被攻破，包括在 AgentDojo 与 InjecAgent 上。

2026-06-04//5 min

BM25 + 向量混合检索将 RAG 投毒成功率从 38% 降到 0%

2026 年 3 月 10 日的一篇 arXiv 预印本表明，在稠密检索之外加入稀疏 BM25，即可在不改动 LLM 的情况下阻断一整类基于梯度优化的 RAG 语料投毒。

AgentShield：用蜜标和诱饵工具识别被劫持的智能体

2026 年 5 月的一篇论文将欺骗工程引入工具型 LLM 智能体：假工具、假凭据和参数白名单，让被劫持的智能体自露马脚。论文报告对成功攻击的检出率为 90.7%–100%，且无误报。

OWASP Agent Memory Guard：对抗智能体记忆投毒的运行时防护层

经 Help Net Security 于 2026 年 6 月 1 日报道，Agent Memory Guard 是 OWASP 针对 ASI06 的首个参考实现——一个即插即用的防护层，按 YAML 策略过滤智能体记忆的每一次读写。

在输出 token 之前检测 LLM 智能体的凭证外泄

2026 年 6 月 2 日发布的一篇 arXiv 论文，在任何输出 token 产生之前就检测智能体的凭证泄漏——结合激活探针、校准蜜标和多轮泄漏核算。

Agent Threat Rules：面向 AI 智能体的「Sigma」——以及它的召回率数字所坦白的真相

ATR 为智能体攻击提供开放的 YAML 检测规则，已在微软、思科和 Gen Digital 投入生产。其自身的基准测试说明了为何基于正则的检测只是一层，而非边界。

2026-06-03//5 min

SnapGuard：在智能体「看到」的画面里检测注入，而非它解析的文本

2026 年 4 月的一篇论文为基于截图的网页智能体提出轻量检测器——文本类防御在此处是盲的。它读取渲染后的像素（梯度稳定性 + 极性反转文本），每页约 1.81 秒。

2026-06-03//5 min

DataShield：当良性微调悄然侵蚀模型的安全性

2026 年 5 月 29 日的一篇 arXiv 论文表明，用无害数据微调一个已对齐的 LLM 仍会削弱其安全性，并提出 DataShield 在训练前识别出导致问题的样本。

2026-06-03//6 min

别再只用攻击成功率来评估越狱防御

2026 年 5 月的一篇 IEEE S&P 论文指出，攻击成功率——该领域默认的指标——掩盖了越狱防御的真实表现。其提出的 Security Cube 从多个维度同时评估防御。

2026-06-02//5 min

动态分隔符：强化多态提示拼装以抵御提示注入

2026 年 5 月 28 日的一篇 arXiv 论文通过为每次请求生成唯一的 SHA-256 分隔符，修复了多态提示拼装（PPA）的「波及范围」缺陷，将某一 payload 的攻击成功率从 0.88 降至 0.38。

2026-06-02//6 min

权衡三角：LLM 教学助手的提示注入防御

2026 年 5 月一项针对教育类 LLM 教学助手提示注入防御的基准测试量化了一个难以回避的事实：没有任何一种护栏能在鲁棒性、可用性和延迟上同时取胜。

2026-06-01//6 min

越狱会留下痕迹:在大语言模型内部激活中检测攻击

2026 年 2 月的一篇论文及其 3 月的后续工作表明,越狱提示会在模型的隐藏激活中刻下可辨识的特征——从而能够在推理时检测,无需微调,也无需辅助的裁判模型。

2026-06-01//6 min

因果归因：对抗间接提示注入的新兴防御

2026 年初的一批论文——CausalArmor 与 AttriGuard——通过追问哪些动作是由不可信内容、而非用户意图所导致，来防护具备工具调用能力的智能体。本文梳理这一因果归因防御路线。

2026-06-01//6 min

百万暴露的 AI 服务:Intruder 扫描究竟发现了什么

2026 年 5 月 5 日,Intruder 公布了一次互联网范围扫描结果,在 200 万台主机上识别出 100 万个暴露的 AI 服务。反复出现的缺陷并不奇特:就是默认配置过于宽松。

2026-05-29//9 min

MCP 需要一次信任握手:基于证明的工具服务器准入

2026 年 5 月 22 日的一篇 arXiv 论文提出 mcp-attested ——一个向后兼容的 MCP 扩展,它在工具分发之前要求签名的准入断言、默认拒绝的白名单和防篡改审计日志。

2026-05-29//7 min

WARD:共同演化的护栏模型,抵御针对Web代理的自适应提示注入

新加坡国立大学2026年5月14日发布的论文提出WARD——一个由带记忆的对抗性攻击者训练而成的护栏模型,在Web代理提示注入的分布外基准上报告接近完美的召回率。

2026-05-29//8 min

Project Glasswing:Claude Mythos 一个月内发现逾 1 万个严重漏洞

Anthropic 于 2026 年 5 月 26 日发布的阶段性更新显示,Project Glasswing 的约 50 家合作伙伴使用 Claude Mythos Preview 共发现了 1 万余个高危或严重漏洞,其中包括 Firefox 150 修复的 271 个潜伏缺陷。

2026-05-26//8 min

Agents Rule of Two：Meta 应对 Prompt Injection 的务实方案

Meta 于 2025 年 10 月 31 日发布、并在 2026 年 5 月 Databricks 指南中被重新采用的 Agents Rule of Two，将单次智能体会话限制在三项风险属性中的两项 —— 在 prompt injection 仍未被解决之前，这是最具可操作性的框架。

2026-05-25//6 min

ARGUS:基于影响溯源图的上下文感知提示注入防御

2026 年 5 月 5 日发布的 ARGUS 论文提出了针对 LLM 代理的影响溯源审计——在新基准上将攻击成功率从 28.8% 降至 3.8%。

2026-05-22//7 min

指令层级:训练大语言模型优先执行高权限指令

OpenAI 在 2024 年的论文提出了一种对抗提示注入的结构性防御:让模型理解系统 > 用户 > 工具输出的优先关系。这一思路已成为 GPT-4o-mini 和 o 系列安全训练的核心。

2026-05-22//8 min