ADVERSARIAL
(10)10 个攻击.
PRAC:通过注意力劫持电脑操作智能体的选择
蒂宾根 2026 年 4 月的一篇论文表明,仅一张被难以察觉地扰动的商品图片,就能集中电脑操作智能体的视觉注意力,从而左右其 82% 的选择,而完全不触及其输出。
当 AI 审稿人读不懂图表:针对同行评审的跨模态攻击
2026 年 6 月的一篇 arXiv 论文(PaperGuard)表明,AI 审稿人不仅会通过文本被攻击,也会通过图表被攻击——黑盒提示注入与白盒图像扰动都能翻转评审结论。
Rapid Poison:当反越狱防御沦为攻击面
2026 年 6 月 15 日的一篇 arXiv 论文显示,Rapid Response 防御中的扩增(proliferation)步骤可在 1% 的投毒率下被污染,迫使守卫分类器产生高达 100% 的误报或 96% 的漏报。
黑洞攻击:通过嵌入几何结构投毒向量数据库
一篇 2026 年 4 月 7 日的论文表明,置于嵌入质心附近的少量向量会被拉入高达 99.85% 的 top-10 结果中——一种与查询和模型无关的向量数据库投毒。
M3Att:无需预知查询即可投毒医疗多模态 RAG
2026 年 5 月的一篇论文在不预先知道用户查询的情况下投毒医疗图文 RAG。难以察觉的图像扰动劫持检索;由临床歧义引导的文本规避模型自我纠错——而预过滤防御几乎无济于事。
CRCP:能在分块与重排序后存活的 RAG 语料投毒
2026 年 6 月 9 日的一篇 arXiv 论文表明,许多语料投毒攻击在重排序之后会悄然失效,并提出了 CRCP——一种为适应真实 RAG 流水线而设计的“分块感知”变体。其启示在于如何评估,而不仅是如何防御。
HPAA:人能读懂、审核大模型却看不见的排版攻击
2026 年 6 月 8 日的一篇论文提出“人类可感知对抗攻击”:有害文本对读者依然一目了然,却能凭借排版操纵绕过基于大模型的内容审核。
SlotGCG:决定越狱成败的是对抗 token 的位置,而不仅是其内容
2026 年 6 月的一篇论文显示,当对抗 token 被放置在与注意力相关的插槽时,GCG 类越狱的成功率平均提升约 14%,并在输入过滤防御下仍保留 42% 的成功率。
SilentRetrieval:能绕过困惑度过滤的流畅 RAG 语料投毒
2026 年 5 月 27 日 arXiv 预印本提出一种两阶段攻击,将劫持触发器隐藏在流畅文档中,在 Natural Questions 和 MS MARCO 上以每查询一份投毒文档实现 57% 的 LLM 攻击成功率。
Usability as a Weapon:一句“优化”请求让代码 LLM 默默丢失安全约束
2026 年 5 月 11 日的 arXiv 论文显示,向代码 LLM 请求“更快”、“更简洁”或“再加一个功能”会悄悄移除安全防护。UPAttack 在 GPT-5.2-chat 与 Gemini-3 上达到 98.1% 成功率。