PROMPT INJECTION

(9)

9 个攻击.

苏黎世联邦理工学院 2026 年 6 月 9 日的研究将 GCG 与 TAP 适配到 AgentDojo，覆盖 80 对智能体任务。黑盒 TAP 胜过基于梯度的 GCG，但在小模型上调优的攻击无法迁移到 GPT-5。

一个已修复的 Copilot Personal 缺陷，将 URL 预填提示词、仅校验首次请求的防护，以及由服务器驱动的后续指令串联起来，实现了一键式的隐蔽数据外泄。其绕过教训具有普遍意义。

一项 IEEE S&P 2026 研究分析了部署在 1 万多个网站上的 17 款聊天机器人插件，发现可被伪造的对话历史（注入效果提升 3 至 8 倍），以及混淆可信与不可信内容的抓取工具。

2026 年 5 月 17 日的一篇 arXiv 基准研究显示，当智能体暂停向用户请求澄清时，提示注入的成功率会从不到 2% 升至超过 34%（o3 与 Gemini-3-Flash）。

USENIX Security 2026 一项针对 196,682 份真实简历的研究发现，约 1% 含有隐藏的提示注入，且超过 90% 是不可见的『数据注入』，而非现有检测器所寻找的显式指令。

2026 年 5 月 4 日,一条用摩尔斯电码写成的推文,从 Grok 控制的加密钱包里转走了约 17.5 万美元。这是迄今最昂贵的一次公开演示,揭示了一个已知的防御盲点:基于字符串匹配的护栏看不穿那些模型本身乐于解码的编码。

2026 年 5 月 25 日的 arXiv 基准测试显示,通过字体映射隐藏的载荷可以将 LLM 的审稿意见从拒稿翻转为接受。ICML 2026 已经用同一手法的镜像版桌拒了 497 篇论文。

Johann Rehberger 于 2026 年 5 月发布的 DEF CON 复盘文章,描述了一条五阶段的间接提示注入链:仅凭一封带陷阱的邮件,即可在 Microsoft 365 Copilot 中植入持久后门。漏洞已修复,但所用模式具有普遍意义。

Unicode Tag 字符（U+E0000–U+E007F）对人类不可见，但 LLM 会解析。攻击者将其嵌入邮件、网页和 PDF 中以注入隐形命令，劫持代理行为。