系统:运行中
← 返回类别

ADVERSARIAL

(10)

10 个攻击.

ADVERSARIAL MEDIUM NEW

PRAC:通过注意力劫持电脑操作智能体的选择

蒂宾根 2026 年 4 月的一篇论文表明,仅一张被难以察觉地扰动的商品图片,就能集中电脑操作智能体的视觉注意力,从而左右其 82% 的选择,而完全不触及其输出。

2026-06-22//6 min
ADVERSARIAL MEDIUM NEW

当 AI 审稿人读不懂图表:针对同行评审的跨模态攻击

2026 年 6 月的一篇 arXiv 论文(PaperGuard)表明,AI 审稿人不仅会通过文本被攻击,也会通过图表被攻击——黑盒提示注入与白盒图像扰动都能翻转评审结论。

2026-06-20//6 min
ADVERSARIAL MEDIUM NEW

Rapid Poison:当反越狱防御沦为攻击面

2026 年 6 月 15 日的一篇 arXiv 论文显示,Rapid Response 防御中的扩增(proliferation)步骤可在 1% 的投毒率下被污染,迫使守卫分类器产生高达 100% 的误报或 96% 的漏报。

2026-06-19//7 min
ADVERSARIAL MEDIUM NEW

黑洞攻击:通过嵌入几何结构投毒向量数据库

一篇 2026 年 4 月 7 日的论文表明,置于嵌入质心附近的少量向量会被拉入高达 99.85% 的 top-10 结果中——一种与查询和模型无关的向量数据库投毒。

2026-06-18//5 min
ADVERSARIAL MEDIUM NEW

M3Att:无需预知查询即可投毒医疗多模态 RAG

2026 年 5 月的一篇论文在不预先知道用户查询的情况下投毒医疗图文 RAG。难以察觉的图像扰动劫持检索;由临床歧义引导的文本规避模型自我纠错——而预过滤防御几乎无济于事。

2026-06-17//6 min
ADVERSARIAL MEDIUM NEW

CRCP:能在分块与重排序后存活的 RAG 语料投毒

2026 年 6 月 9 日的一篇 arXiv 论文表明,许多语料投毒攻击在重排序之后会悄然失效,并提出了 CRCP——一种为适应真实 RAG 流水线而设计的“分块感知”变体。其启示在于如何评估,而不仅是如何防御。

2026-06-15//6 min
ADVERSARIAL MEDIUM NEW

HPAA:人能读懂、审核大模型却看不见的排版攻击

2026 年 6 月 8 日的一篇论文提出“人类可感知对抗攻击”:有害文本对读者依然一目了然,却能凭借排版操纵绕过基于大模型的内容审核。

2026-06-11//5 min
ADVERSARIAL MEDIUM NEW

SlotGCG:决定越狱成败的是对抗 token 的位置,而不仅是其内容

2026 年 6 月的一篇论文显示,当对抗 token 被放置在与注意力相关的插槽时,GCG 类越狱的成功率平均提升约 14%,并在输入过滤防御下仍保留 42% 的成功率。

2026-06-08//5 min
ADVERSARIAL MEDIUM NEW

SilentRetrieval:能绕过困惑度过滤的流畅 RAG 语料投毒

2026 年 5 月 27 日 arXiv 预印本提出一种两阶段攻击,将劫持触发器隐藏在流畅文档中,在 Natural Questions 和 MS MARCO 上以每查询一份投毒文档实现 57% 的 LLM 攻击成功率。

2026-05-29//6 min
ADVERSARIAL MEDIUM

Usability as a Weapon:一句“优化”请求让代码 LLM 默默丢失安全约束

2026 年 5 月 11 日的 arXiv 论文显示,向代码 LLM 请求“更快”、“更简洁”或“再加一个功能”会悄悄移除安全防护。UPAttack 在 GPT-5.2-chat 与 Gemini-3 上达到 98.1% 成功率。

2026-05-26//8 min