INDIRECT INJECTION
(23)23 个攻击.
消息对象注入:AI 助手的序列化缺口
Imperva 于 2026 年 6 月 10 日指出,联系人、vCard 与位置图钉会被直接扁平化拼入 AI 助手的提示词,且无任何不可信内容边界——这是一个结构性注入向量,已在 OpenClaw 2026.4.23 中修复。
TRAP:说服话术让网页智能体背离自身任务
牛津大学的一个基准测试于2026年6月在arXiv更新,显示网页智能体会服从隐藏在页面元素中的西奥迪尼式说服话术,平均在25%的任务中偏离目标,最弱的模型高达43%。
ChatGPhish:不可信 Markdown 让 ChatGPT 摘要变成钓鱼面
Permiso 于 2026 年 5 月 29 日披露 ChatGPhish:你让 ChatGPT 摘要的网页,可在可信助手界面内渲染恶意链接、伪造警报、二维码与追踪像素。
本地部署并不更安全:间接注入对本地与云端 LLM 一视同仁
Brave 于 2026 年 6 月 8 日的研究表明,间接提示注入对云端代理(Mozilla Tabstack)和本地自动补全(Cotypist)同样有效——本地托管并非缓解措施。
错误通道注入:当工具错误消息被当作权威指令
2026 年 6 月的论文 VATS 表明,将指令注入工具的错误消息会使前沿智能体上的间接注入成功率翻三倍——最高达到 100% 的服从率——因为模型把错误输出当作权威信息处理。
MIRAGE:移动 GUI 智能体被注入的用户生成内容欺骗
2026 年 5 月的研究表明,基于 VLM 的移动 GUI 智能体无法区分可信界面与用户生成内容。注入评论中的逼真文本劫持了全部五个受测智能体(成功率 23–30%)。
LogJack:云日志成为针对调试智能体的提示注入通道
2026 年 4 月的一项基准测试显示,读取云日志并执行修复的 LLM 调试智能体会服从隐藏在日志行中的指令——逐字执行命令率最高达 86.2%,8 个模型中 6 个可被远程代码执行,且云厂商的防护几乎检测不到任何内容。
Agentjacking:伪造 Sentry 报错经 MCP 劫持 AI 编程智能体
Tenet Security 2026 年 6 月的研究表明,攻击者可注入伪造的 Sentry 报错,编程智能体经 MCP 读取后执行,在 2388 个暴露组织中以 85% 的成功率窃取凭据。
跨应用上下文投毒:一个恶意 ChatGPT 应用即可操纵其他应用
2026 年 6 月的一篇 arXiv 研究表明,恶意 ChatGPT 应用可通过第一方 API 向所有已连接应用共享的对话上下文写入内容,使模型沦为「混淆代理」,转而危害良性应用。
ReAct 智能体中的注入深度:位置比措辞更关键
2026 年 6 月一项针对工具调用 ReAct 智能体的研究发现,决定间接提示注入成败的是注入深度而非措辞:第一次工具调用成功率 60%,到第四次降为 0%。
DACSI:当被检索的文档伪造系统的控制信号
2026 年 6 月 8 日的一篇论文为一种隐蔽的 RAG 失效模式命名:不可信文档文本冒充元数据、来源与策略信号。无需「ignore previous instructions」——核心教训是:文档自带的标签是数据,不是策略。
注入悖论:当提示注入反噬自身,在 RAG 中抹除一个品牌
2026 年 6 月 8 日的一篇 arXiv 预印本表明,检索文档中的提示注入会在经过安全训练的 Claude 模型上反噬,使某品牌的推荐率从 54% 跌至 0%——并由此开启针对竞争对手的反向攻击。
决策劫持:对为你的搜索结果排序的 LLM 发起提示注入
2025-2026 年的一系列研究表明,当 LLM 对搜索或 RAG 候选结果重排序时,只需在单个文档中注入几行文字,就能将其推到首位——排序质量骤降 60 多个 NDCG 点,而且越强的模型越脆弱。
AgentRedBench:SaaS 智能体的间接注入本质是授权缺口
AgentRedBench(2026 年 6 月)对读取 Gmail、Jira 等 SaaS 工具的 LLM 智能体进行红队测试。在无防护下,八个前沿模型的攻击成功率为 32%–81%,直到一个工具响应分类器将其压低。
描述投毒:你的基准测试没有覆盖的智能体通道
2026 年 5 月的一项 AWS Bedrock AgentCore 演示与 2026 年 6 月的一篇 arXiv 论文指向同一个盲区:在每次调用前被读取的工具描述,是一条注入通道,而基础设施控制与单一数值的基准测试都看不到它。
ChatInject:伪造聊天模板角色标签以绕过指令层级
一篇 ICLR 2026 论文表明,将间接注入载荷包裹进模型自身的聊天模板 token 可伪造高优先级角色,使 AgentDojo 上的攻击成功率从 5% 升至 32%,多轮变体更高达 52%。
IPI 竞技场:27.2 万次攻击,无一智能体模型幸免
Gray Swan 的间接提示注入竞技场由英国 AISI 与美国 CAISI 共同评审,对 13 个前沿模型发起逾 27.2 万次攻击。所有模型均被劫持——单一通用模板攻破了其中九个。
Silent Egress:隐式提示注入借助 URL 预览悄然泄露数据
eBay 的一项研究(arXiv,2026 年 2 月 25 日)表明,自动预览 URL 的智能体可被诱导通过工具调用外泄其运行时上下文——P(egress)≈0.89,且 95% 的泄露发生时用户看到的回答完全正常。
IterInject:当 LLM 自己为间接提示注入做优化
2026 年 5 月 23 日的一篇论文,把载荷 / 诊断器 / LLM 优化器三者闭环 — 在 InjecAgent 上的间接注入 ASR 从近零升至 33–90%,在 Claude Code 上 9 个目标中有 5 个被攻破。
GrafanaGhost:间接提示注入与 URL 解析漏洞结合,导致仪表盘数据外泄
Noma Security 于 2026 年 4 月 7 日披露的三个微小缺陷——一个存储型注入点、一处 startsWith('/') URL 校验,以及一个单词级的护栏绕过——共同构成了通过 Grafana AI 助手悄然外泄数据的链条。
Discourse AI XSS 漏洞(CVE-2026-27740):当 LLM 输出被当作可信 HTML 渲染
一条被举报的帖子、一个 AI 审核员、一次 htmlSafe 调用。Discourse AI 插件将 LLM 输出视为可信标记,使间接提示注入演变为针对管理员的 XSS。2026 年 3 月 19 日公开。
野外的间接提示注入:2026年4月三项研究殊途同归
Google、Forcepoint 与 CISPA 于 2026 年 4 月分别完成对开放网络中间接提示注入的测量。结论:15 000 余条已验证载荷,32% 的环比增长,组织化模板。
ShareLeak (CVE-2026-21520):微软首次为 Copilot 提示注入分配的 CVE
Capsule Security 于 2026 年 4 月 15 日披露的 ShareLeak 报告,详述了 Microsoft Copilot Studio 中的一处间接提示注入。微软分配了 CVE-2026-21520 (CVSS 7.5),这是行业上将提示注入正式纳入受跟踪漏洞类别的标志性事件。