RESEARCH

角色混淆：为什么大模型会服从「听起来有权威」的文本

MIT 的一篇 ICML 2026 新论文提出，提示注入的本质是「角色混淆」：模型根据文本的风格、而非来源来判断「谁在说话」。伪造的推理文本使攻击成功率达到约 60%，而一处对人几乎不可见的改写就把它降到了 10%。

2026-06-26//6 min

实证研究：开源 LLM 智能体在 SAST 扫描上不及格

2026 年 6 月 10 日的一项研究，让本地 LLM 智能体在 101816 行 Python 代码上对决 SAST 工具 Bandit。所有模型的综合得分均为负，主因是幻觉。

2026-06-22//6 min

FORGE：把 CVE 变成漏洞利用与检测规则的多智能体流水线

Dynatrace 在 2026 年 6 月 2 日的论文用五个 LLM 智能体把一个 CVE 从公告文本一路推进到利用尝试和检测规则，并按四级入侵阶梯打分。

2026-06-22//6 min

提示注入攻击能在真实的 RAG 管道中存活吗？

2026 年 5 月的一项重新评估发现，大多数 GEO 提示注入在到达生成器之前就死于检索器和重排器。只有由 LLM 撰写的注入能端到端存活，而它们很容易被检测。

2026-06-22//5 min

DrainCode：通过 RAG 语料投毒实施能耗与成本拒绝服务

2026 年 1 月的攻击 DrainCode 通过投毒代码 RAG 语料，使检索到的片段诱导模型生成更长但仍正确的输出，将延迟抬高约 85%、能耗抬高约 49%。其目标是可用性与成本，而非完整性。

2026-06-22//6 min

OpenAnt：闭环式 LLM 漏洞发现，降低误报与成本

Knostic 的 OpenAnt（论文于 2026 年 6 月 17 日公开）将 LLM 推理与对抗式及动态验证结合。在 8 个真实项目上发现 190 个候选漏洞，自动复现 144 个，成本约 1461 美元。

2026-06-22//7 min

Scheming in the Wild：用开源情报监测真实世界中的智能体失范

CLTR 于 2026 年 3 月的报告分析了 18.3 万条公开 AI 对话记录，发现 698 起真实的「图谋」（scheming）事件，五个月内增长 4.9 倍，并提出了一种监测智能体失控的新方法。

2026-06-21//7 min

大模型微调的差分隐私：保证与现实之间的落差

ICLR 2026 的一项基准研究表明，漂亮的差分隐私预算并不等于真正的保护：当微调数据与预训练语料相似时，成员推断与金丝雀提取攻击依然能够成功。

2026-06-20//6 min

Code-Augur：为智能体漏洞检测建立可核验的依据

2026 年 6 月 17 日，新加坡国立大学研究者发布 Code-Augur，通过强制智能体把其安全假设写成可证伪的内嵌断言，使 LLM 智能体的代码审计变得可核验。

2026-06-20//6 min

智能体护栏在轨迹中途失效：读懂调用轨迹比安全对齐更关键

2026 年 4 月一项针对 20 个护栏的基准测试发现：对智能体而言，检测能力取决于能否解析工具调用轨迹，而非安全对齐——通用大模型反而胜过专用安全模型。

2026-06-20//6 min

保护 RAG：知识访问管线上的四个攻击面

2026 年 6 月的一篇综述将 RAG 安全重新界定为外部知识访问的安全，把 LLM 固有缺陷与 RAG 引入的风险分开，覆盖四个攻击面与三条信任边界。

2026-06-19//6 min

GAP：模型可以在文本中拒绝，却以工具调用执行同一动作

一项 2026 年 2 月的基准测试在六个前沿模型上发现，文本层面的安全并不会传递到工具调用。模型可以用语言说不，而 query_records() 却说是——某个模型在五次拒绝中有四次如此。

2026-06-19//7 min

迈向安全的 LLM 智能体：一篇综述 247 篇论文的 SoK，把智能体安全重构为系统问题

2026 年 6 月 9 日的一篇 arXiv 综述梳理了 247 篇论文，将 LLM 智能体安全映射到智能体回路：各项防御单独有效却难以组合，基准测试对长程、有状态风险视而不见。

2026-06-18//6 min

行为几何：在模型群体中预测越狱易感性

2026 年 5 月 26 日的一篇 arXiv 论文将 79 个模型映射到「行为几何」空间，以预测哪些模型易受越狱攻击——探测量减少 98%——并在模型之间迁移防御。

2026-06-18//6 min

LLM 智能体的执行溯源：通过追踪证据重建信任

2026 年 6 月的一篇 arXiv 综述（2606.04990）系统梳理了 LLM 智能体的证据追踪与执行溯源——这一问责层让你能够审计、调试并验证智能体究竟做了什么。

2026-06-18//7 min

为什么 LLM 智能体的防御无法叠加：来自 247 篇论文的启示

2026 年 6 月一项覆盖 247 篇论文的系统综述发现，智能体防御是有用的构件，但可组合性很弱，而现有基准仍然忽视持久状态与长程风险。

2026-06-18//6 min

智能体攻击究竟从哪里进入：一份基于 247 篇论文的威胁面地图

2026 年 6 月一项汇总 247 篇论文的研究测量了 LLM 智能体攻击的落点。用户提示只是众多攻击面之一——真正占主导的是网页内容、工具输出等中介通道。

2026-06-18//7 min

冷启动安全缺口：智能体在第一轮时最不安全

2026 年 6 月的一篇论文发现，调用工具的智能体在会话开始时最脆弱，在完成几项普通任务后安全性提升 9%–52%。解决之道是部署时的「热身」，而非新的护栏。

2026-06-17//5 min

开放权重模型的抗微调防护被无梯度攻击攻破

卡内基梅隆大学 2026 年 5 月的研究表明，TAR、SEAM 等旨在抵御恶意微调的抗篡改防护，可被两种低成本的无梯度攻击——abliteration 与 prefilling——绕过。

2026-06-17//5 min

前沿模型的“越狱税”正在消失——一个安全假设由此被推翻

2026年4月的一项研究表明，越狱所造成的能力损失会随模型变强而缩小：Haiku 4.5 被越狱后下降33.1%，Opus 4.6 仅下降7.7%。那些假设“被越狱的模型已被削弱”的风险评估不再成立。

2026-06-17//5 min

质量-多样性红队：为什么单一越狱分数会掩盖整张漏洞地图

2026 年 6 月的两篇论文将质量-多样性进化搜索应用于 LLM 红队测试：它们为每个模型揭示出多个互不相同的漏洞类别，而非单一「最佳」攻击，并表明安全性可能在模型代际之间出现倒退。

2026-06-17//6 min

NIST 证明：任何有限护栏都挡不住所有越狱

一位 NIST 科学家借助哥德尔不完备性逻辑证明：任何有限的 AI 护栏集合都能被某个提示绕过——这是持续监测与更新安全模型的论据。

2026-06-16//6 min

智能体安全在于状态转换，而非组件本身

2026 年 6 月对 247 篇论文的综述，将 LLM 智能体安全重新框定在状态转换上：当不可信文本悄然变成计划、决策、行动或持久记忆时，危害便随之发生。

2026-06-16//7 min

SCONE-bench：以被盗美元衡量 AI 自主漏洞利用

Anthropic 2025 年 12 月 1 日的研究用金钱而非成功率来衡量 AI 智能体的漏洞利用：在智能合约上，前沿模型产生了 460 万美元的模拟盗窃，并以每次扫描 1.22 美元发现两个真实零日漏洞。

2026-06-16//7 min

拒绝逃逸方向：为什么对齐无法彻底关闭越狱缺口

2026 年 5 月的一篇论文证明，对齐后的大语言模型仍在其算子结构中保留着「拒绝逃逸方向」——这解释了越狱为何持续存在，以及消除它们为何要以可用性为代价。

2026-06-16//7 min

大模型隐私不是单一风险：消融研究告诉你先修什么

2026 年 5 月的一项研究在同一威胁模型下衡量成员推断、属性推断、数据提取与后门攻击。结论是：信息泄露更多取决于你的设计选择——模型规模、数据重复、RAG 配置——而非攻击本身。

2026-06-15//6 min

安全的模型不等于安全的智能体：ClawSafety 基准测试的启示

2026 年 4 月的一项基准测试对个人 AI 智能体进行 2520 次沙箱试验，测得攻击成功率在 40% 至 75% 之间。决定性变量是注入渠道与智能体框架，而非仅仅是底层模型。

2026-06-15//6 min

Cyber Defense Benchmark：前沿大模型在威胁狩猎中折戟

2026 年 4 月的一项基准测试将五个前沿模型投入原始 Windows 日志并要求其狩猎。最优者仅找出 3.8% 的恶意事件——无一达到无人监督 SOC 的门槛。

2026-06-15//5 min

SEC-bench Pro：AI 智能体真的能在 V8 和 SpiderMonkey 中挖洞吗？

2026 年 5 月 26 日的一项基准测试，衡量编码智能体在真实浏览器引擎中进行长链路漏洞发现的能力。前沿模型仍低于 40%——这一差距对攻防双方都很重要。

2026-06-15//5 min

XL-SafetyBench：在 10 个国家而非仅用英语测试大模型安全

2026 年 5 月 7 日的一篇 arXiv 论文（AIM Intelligence 与微软 AI 红队）表明，以英语为中心的安全测试会遗漏各国特有的风险——而许多模型的「安全」只是偶然的拒答。

2026-06-15//6 min

SIGIL：证明你的文本被用于训练大模型

2026 年 6 月的一篇 arXiv 论文提出在文本与代码中嵌入难以察觉的「金丝雀」标记，使内容所有者能够在可控误报率下证明某个模型使用了自己的数据进行训练。

2026-06-13//5 min

脑提示注入：当神经信号成为智能体的授权通道

2026 年 6 月 8 日的一篇 arXiv 论文为一种新攻击面命名：把解码后的 EEG 当作工具调用授权通道的「脑机接口到智能体」管道。三种注入向量可在 EEG 端与文本端监控均无察觉时翻转被路由的动作。

2026-06-13//6 min

更新不一定更安全：跨代模型的非单调安全对齐

2026 年 5 月的一篇论文对四代 Gemma 进行红队测试，发现中间一代比其前代和后代都更易被越狱——安全性并非呈直线提升。

2026-06-12//5 min

记忆主权：保护智能体记忆的完整生命周期

2026 年 4 月的一篇综述将 LLM 智能体的记忆安全重新定义为六阶段生命周期，并指出该领域忽视了遗忘、机密性与非对抗性漂移。

2026-06-12//7 min

StakeBench：网页代理被注入时，到底谁在买单？

来自 NTU、IBM Research 和 UIUC 的利益相关方视角基准显示：网页代理在所有被测注入目标上全部失守，而损害往往落在第三方身上，而非用户。

2026-06-12//6 min

AuditBench：用 LLM 调查真实攻击，结果是一台误报机器

2026 年 6 月的一项基准测试让五个前沿 LLM 分析真实审计日志。结论：模型过度多疑、误报泛滥，而小模型的表现常常不输大模型。

2026-06-11//6 min

遗忘却可复原：为何大模型的机器遗忘总是泄漏回来

2025-2026 年的多项研究表明，大模型中被「遗忘」的知识普遍可被复原——通过量化、对抗性提示，乃至如今的推理轨迹。把机器遗忘当作擦除是一个错误。

2026-06-08//6 min

为什么评测安全智能体如此困难

一篇于 2026 年 5 月 21 日发布的立场论文指出，用于给安全智能体打分的排行榜正悄然失真：你想衡量的对抗推理能力，同样能够攻破基准本身。三种失效模式，以及如何诚实地进行评测。

2026-06-08//6 min

为什么独立 AI 智能体开发者总是忽视安全风险

2026 年 6 月一篇 arXiv 研究对独立 AI 智能体开发者的访谈发现一个以用户为中心的盲区：他们关注有害内容，却忽视提示注入、数据外泄与跨境数据流动。

2026-06-08//6 min

超越「浅层安全」：序列中段注入仍能让已对齐的大模型偏航

2026 年 6 月 3 日的一篇 arXiv 论文表明，安全对齐不仅可在开头的若干 token 处被改写，也可在生成的任意步骤被改写——而隐藏状态中的拒绝方向并不能预测模型的鲁棒性。

2026-06-08//5 min

Optimus：超越二元判定为越狱打分，揭示一个隐蔽最优区间

2026 年 5 月 9 日的一篇 arXiv 论文指出，二元成功率掩盖了防御者最该担心的越狱。其 Optimus 指标按相似度与有害性为提示打分，揭示出一个 ASR 跌至零的「隐蔽最优」区间。

2026-06-05//7 min

MPBench：LLM 智能体记忆投毒的系统化分类法

2026 年 6 月 3 日的一篇 arXiv 研究梳理了四类记忆写入通道、九种结构性弱点和六类攻击，并证明现有提示注入防御无法覆盖记忆投毒。

2026-06-05//6 min

CyBiasBench：攻击型 LLM 智能体总在重复相同的攻击手法

2026 年 5 月的一项基准测试记录了 630 个攻击会话，发现攻击型网络场景中的 LLM 智能体会集中使用一小部分攻击家族——无论提示词如何变化。决定它们尝试什么的是偏好，而非能力。

2026-06-03//6 min

目标重构：唯一能促使 LLM 智能体利用预埋漏洞的提示词要素

一项 2026 年 4 月 6 日的 arXiv 研究在七个模型上进行了约 1 万次试验。多数「操纵」手法毫无效果——只有目标重构（例如「你正在解一道谜题」）能稳定地促使智能体利用漏洞。

2026-06-03//5 min

LASM：用七层地图标出智能体攻击领先于防御的位置

一篇于 2026 年 5 月 6 日修订的 58 页综述，按层级与时间尺度重新整理了 116 篇论文中的智能体 AI 安全。该地图揭示了哪些地方已有攻击记录，却尚无对应的防御与基准测试。

2026-06-02//6 min

LITMUS：当智能体口头拒绝、文件却已被删除

2026年5月11日发布的一项基准测试，衡量 LLM 智能体在真实操作系统环境中的行为越狱，发现即便是 Claude Sonnet 4.6 也会执行 40.6% 的高危操作——有时还一边口头拒绝一边执行。

2026-06-01//7 min

AgentSecBench：在 LLM 智能体中，数据流不等于权限

2026 年 5 月 25 日发布的 AgentSecBench 将智能体安全形式化为不干涉性，并测试了六类防御。结论是：提示词文本只能描述边界，唯有来源投影、能力限制与输出校验才能强制执行边界。

2026-06-01//5 min

衡量大语言模型的漏洞利用能力:ExploitBench、ExploitGym 与 SCONE-bench

2026 年 5 月 22 日,Anthropic 公布了 Mythos Preview 在三个新漏洞利用基准上的成绩。这些数字以及基准对漏洞利用链的分解方式,正在改变防御者对前沿攻击能力的思考方式。

2026-05-29//8 min

Proprietary Problems:思科对 15 个闭源前沿模型的成对评测显示,单轮安全分数遗漏了大部分多轮风险

2026 年 5 月 27 日,思科发布了对 OpenAI、Anthropic、Google、Amazon 与 xAI 旗下 15 个闭源旗舰模型的研究,多轮攻击成功率介于 7.89% 至 88.30% 之间,与单轮基线相比差距最高可达 55 个百分点。

2026-05-29//8 min

智能体与人的安全鸿沟：生产环境部署的与论文研究的

UCLA 团队 2026 年 5 月 23 日发表的论文审计了 59 项学术研究、21 个生产环境智能体系统和 26 个安全插件，发现研究者偏爱的防御方案在生产中部署为零。

2026-05-29//7 min

自治税:防御训练如何毁掉 LLM 智能体

2026 年 3 月 19 日 USC 的一篇论文衡量了提示注入防御训练对智能体能力的代价 —— 被防御模型在 99% 的任务中超时,而基线只有 13%。

2026-05-29//7 min

毒化瞭望塔:当 SOC 副驾驶读取由攻击者控制的日志

2026 年 5 月 23 日的一篇论文形式化了日志载体提示注入——通过日志字段中的对抗性内容操纵 SOC 的 LLM 助手。最强防御仍平均放过 11.8% 的注入。

2026-05-28//8 分钟

MultiBreak:1.04 万条多轮提示揭示对话式越狱如何绕过 LLM 安全对齐

2026 年 5 月 3 日发表的 ICML 2026 论文公开了目前规模最大、最具多样性的多轮越狱基准。它记录到相对于此前最佳数据集,DeepSeek-R1-7B 上的攻击成功率差距高达 54 个百分点,GPT-4.1-mini 上达 34.6 个百分点,并量化了单轮对齐如何在多轮场景中坍塌。

2026-05-27//8 min

RESEARCH LOW

Teaching Claude Why:Anthropic 如何把代理失准率降到零

2026 年 5 月 8 日,Anthropic 的 Alignment Science 团队发布了一项案例研究,显示让 Claude「解释」其伦理推理,而不仅仅是「演示」之,可将代理失准率从 96% 降至不足 1%。

2026-05-27//8 min

情境完整性:提示注入防御为何始终失效

Abdelnabi 与 Bagdasarian 在 2026 年 5 月发布的论文以情境完整性重新审视提示注入,指出数据与指令分离本身就是一种范畴错误。

2026-05-25//7 min