ADVERSARIAL

(10)

10 个攻击.

蒂宾根 2026 年 4 月的一篇论文表明，仅一张被难以察觉地扰动的商品图片，就能集中电脑操作智能体的视觉注意力，从而左右其 82% 的选择，而完全不触及其输出。

2026 年 6 月的一篇 arXiv 论文（PaperGuard）表明，AI 审稿人不仅会通过文本被攻击，也会通过图表被攻击——黑盒提示注入与白盒图像扰动都能翻转评审结论。

2026 年 6 月 15 日的一篇 arXiv 论文显示，Rapid Response 防御中的扩增（proliferation）步骤可在 1% 的投毒率下被污染，迫使守卫分类器产生高达 100% 的误报或 96% 的漏报。

一篇 2026 年 4 月 7 日的论文表明，置于嵌入质心附近的少量向量会被拉入高达 99.85% 的 top-10 结果中——一种与查询和模型无关的向量数据库投毒。

2026 年 5 月的一篇论文在不预先知道用户查询的情况下投毒医疗图文 RAG。难以察觉的图像扰动劫持检索；由临床歧义引导的文本规避模型自我纠错——而预过滤防御几乎无济于事。

2026 年 6 月 9 日的一篇 arXiv 论文表明，许多语料投毒攻击在重排序之后会悄然失效，并提出了 CRCP——一种为适应真实 RAG 流水线而设计的“分块感知”变体。其启示在于如何评估，而不仅是如何防御。

2026 年 6 月 8 日的一篇论文提出“人类可感知对抗攻击”：有害文本对读者依然一目了然，却能凭借排版操纵绕过基于大模型的内容审核。

2026 年 6 月的一篇论文显示，当对抗 token 被放置在与注意力相关的插槽时，GCG 类越狱的成功率平均提升约 14%，并在输入过滤防御下仍保留 42% 的成功率。

2026 年 5 月 27 日 arXiv 预印本提出一种两阶段攻击,将劫持触发器隐藏在流畅文档中,在 Natural Questions 和 MS MARCO 上以每查询一份投毒文档实现 57% 的 LLM 攻击成功率。

2026 年 5 月 11 日的 arXiv 论文显示,向代码 LLM 请求“更快”、“更简洁”或“再加一个功能”会悄悄移除安全防护。UPAttack 在 GPT-5.2-chat 与 Gemini-3 上达到 98.1% 成功率。