当 AI 审稿人读不懂图表:针对同行评审的跨模态攻击
2026 年 6 月的一篇 arXiv 论文(PaperGuard)表明,AI 审稿人不仅会通过文本被攻击,也会通过图表被攻击——黑盒提示注入与白盒图像扰动都能翻转评审结论。
这是什么?
2026 年 6 月,研究者在 arXiv 上发表了 Does AI Reviewer See the Full Picture? Attacking and Defending Multimodal Peer Review(2606.12716,已被 ICML 2026 接收)。该论文探讨了此前 AI 同行评审研究尚未回答的问题:如果审稿人越来越多是同时审阅图表与文本的多模态大语言模型(MLLM),攻击者是否能够通过图像而不仅仅是文字来操纵评审结论?
答案是肯定的。作者提出了 PaperGuard,称其为首个专门用于评估并防御 AI 辅助同行评审免受跨模态攻击的基准。其核心发现是:在多个前沿模型上,AI 审稿人存在普遍的脆弱性;而现有的鲁棒性研究几乎都只针对文本,因而遗漏了大部分攻击面。
这延续了一条已经成型的脉络。在 NeurIPS 2025 上,「Give a Positive Review Only」 记录了针对 AI 审稿人的、嵌入论文正文的提示注入;我们对 字体映射注入 的报道也展示了隐藏的文本载荷如何把评审从拒稿翻转为接收。这项新成果把该威胁从文本通道扩展到了图表通道。
工作原理
据摘要,PaperGuard 建立在三大支柱之上。
首先是一个多模态同行评审数据集:对 AI/ML 及更广泛科学领域的真实论文进行解析,提取其关键图表——方法示意图、结果曲线图——使该基准能够反映 MLLM 审稿人实际消费一篇投稿的方式。
其次是一套统一的攻击套件,在两种模态上结合了两类威胁模型:
- 黑盒提示注入——把对抗性指令放入投稿之中(与「只给正面评价」一类的文本攻击同属一类),如今也被携带进图表内部或图表旁边。
- 白盒梯度攻击——在文本通道上使用 GCG、在图像通道上使用 PGD 进行优化扰动。PGD(投影梯度下降)会在像素层面产生人眼难以察觉的细微改动,从而引导模型对图表的解读。
跨模态正是关键所在:对 MLLM 审稿人而言,一张图不是装饰,而是模型据以推理的证据。一处人类编辑永远不会注意到的扰动,可以改变模型在结果图中所「看到」的内容。本文不复现任何载荷,也无需复现即可理解其教训:审稿人所摄入的每一种模态,都是不可信的输入通道。
最后,作者提出了一种轻量级防御(见下文),其动机在于:科学论文是长上下文文档,单条恶意指令很容易藏匿其中。
为何重要
同行评审是一个高风险的信任流程:经费、职业生涯与科学记录的完整性都依赖于它。各大会议已经在应对回路中的 AI——ICML 与 NeurIPS 都发布过关于在评审中使用 LLM 的政策,正是因为完整性方面的利害极高。
有两点使多模态结果比纯文本情形更为严重。其一是防御方的盲区:检测工具与会议政策一直聚焦于文本载荷,因此通过图像通道的攻击会绕过那些从未为审查图表而设计的控制措施。其二是可推诿性:PGD 扰动会让图表看起来一切正常;与「忽略前面的指令」这类笨拙字符串不同,人工抽查几乎无从发现。
2026 年的整体图景是一致的。一篇 2026 年 6 月的姊妹论文 Gaming AI-Assisted Peer Reviews Poses New Risks to the Scientific Community 指出,随着评审越来越依赖 AI,操纵评审的动机也随之增长。跨模态攻击正是这种动机的技术化表达。
防御措施
可落地的要点,其中多条源自论文自身的提案:
- 把图表当作不可信输入。 任何向 MLLM 审稿人馈入图像的流程,都必须假设这些图像可能是对抗性的,正如它假设文本可能是对抗性的一样。
- 要定位,而不仅是分类。 PaperGuard 的防御使用基于分块的嵌入检索(chunk-based embedding search)在长文档内部定位并消解恶意指令,而非把整篇论文一次性打分——对于论文长度的上下文,这是更可行的做法。
- 让人类参与决策。 AI 辅助评审应当用于提供参考,而非作出接收/拒稿的决定;一位从不只凭模型结论行事的人类审稿人,是抵御文本与图像两类操纵的最后防线。
- 对图表进行净化与重编码。 在图像抵达模型之前对投稿图像重新编码或降采样,能够扰乱像素级精确的 PGD 扰动,代价是一定的保真度损失。
- 政策与检测并举。 会议关于未声明使用 AI 的规则,只有在配合真正覆盖审稿人所消费每一种模态的检测时,才能真正发挥作用。
状态
| 项目 | 内容 |
|---|---|
| 论文 | arXiv:2606.12716,2026 年 6 月(ICML 2026) |
| 攻击通道 | 文本(提示注入、GCG)+ 图像(PGD 扰动) |
| 所提防御 | 基于分块的嵌入检索,用于定位恶意指令 |
| 既往工作 | NeurIPS 2025「Give a Positive Review Only」;字体映射注入(2026 年 5 月) |
| 处置 | 研究基准;此处不发布任何可操作的利用代码 |