sistema: OPERATIVO
← volver a todos los hacks
ADVERSARIAL MEDIUM NEW

Cuando el revisor de IA no sabe leer la figura: ataques cross-modales a la revisión por pares

Un artículo de arXiv de junio de 2026 (PaperGuard) muestra que los revisores de IA son vulnerables no solo por el texto, sino por las figuras — la inyección de prompts en caja negra y las perturbaciones de imagen en caja blanca invierten el veredicto.

2026-06-20 // 6 min affects: multimodal-llms, ai-peer-review-systems

¿Qué es esto?

En junio de 2026, un grupo de investigadores publicó en arXiv Does AI Reviewer See the Full Picture? Attacking and Defending Multimodal Peer Review (2606.12716, aceptado en ICML 2026). El artículo aborda una pregunta que los trabajos anteriores sobre revisión por pares con IA dejaban abierta: si los revisores son cada vez más modelos de lenguaje multimodales (MLLM) que examinan tanto las figuras como el texto, ¿puede un atacante manipular el veredicto a través de las imágenes y no solo de la prosa?

La respuesta es sí. Los autores presentan PaperGuard, descrito como el primer benchmark diseñado específicamente para evaluar y defender la revisión asistida por IA frente a ataques cross-modales. Su hallazgo principal, en modelos del estado del arte, es que los revisores de IA son vulnerables de forma generalizada, y que los estudios de robustez existentes pasan por alto la mayor parte de la superficie porque son casi exclusivamente textuales.

Esto se inscribe en una línea ya consolidada. En NeurIPS 2025, «Give a Positive Review Only» documentó la inyección de prompts dentro de los artículos dirigida a revisores de IA, y nuestra cobertura de la inyección por font-mapping mostró cargas de texto ocultas que hacían pasar una revisión de rechazo a aceptación. El nuevo resultado extiende esa amenaza del canal de texto al canal de las figuras.

Cómo funciona

PaperGuard se apoya en tres pilares, según el resumen.

Primero, un conjunto de datos multimodal de revisión por pares: artículos reales de IA/ML y de otros dominios científicos se analizan para extraer sus figuras clave —diagramas de método, gráficos de resultados— de modo que el benchmark refleje cómo un revisor MLLM consume realmente un envío.

Segundo, una suite de ataques unificada que combina dos modelos de amenaza sobre dos modalidades:

  • Inyección de prompts en caja negra — instrucciones adversarias colocadas en el envío (la misma clase que los ataques de texto del tipo «dé solo una reseña positiva»), ahora también incorporadas dentro o junto a las figuras.
  • Ataques por gradiente en caja blanca — perturbaciones optimizadas mediante GCG en el canal de texto y PGD en el canal de imagen. PGD (descenso de gradiente proyectado) produce pequeñas modificaciones a nivel de píxel, imperceptibles para un humano, que dirigen la lectura que el modelo hace de la figura.

El ángulo cross-modal es lo esencial: para un revisor MLLM, una figura no es un adorno, es evidencia sobre la que el modelo razona. Una perturbación que un editor humano nunca notaría puede cambiar lo que el modelo «ve» en un gráfico de resultados. Aquí no se reproduce ninguna carga, y no hace falta ninguna para entender la lección: cada modalidad que ingiere el revisor es un canal de entrada no confiable.

Por último, los autores proponen una defensa ligera (véase más abajo), motivada por el hecho de que los artículos científicos son documentos de contexto largo donde una sola instrucción hostil es fácil de ocultar.

Por qué importa

La revisión por pares es un proceso de confianza de alto riesgo: de él dependen la financiación, las carreras y la integridad del registro científico. Las conferencias ya lidian con la IA en el circuito —ICML y NeurIPS han publicado políticas sobre el uso de LLM en la revisión, precisamente porque lo que está en juego en materia de integridad es alto.

Dos elementos hacen que el resultado multimodal sea más grave que el caso puramente textual. Primero, el punto ciego de los defensores: las herramientas de detección y las políticas de las conferencias se centraron en las cargas de texto, de modo que un ataque por el canal de imagen sortea controles que nunca se diseñaron para inspeccionar figuras. Segundo, la negación plausible: una perturbación PGD deja una figura de apariencia normal; a diferencia de una cadena torpe del tipo «ignore las instrucciones anteriores», casi no hay nada que señalar en una verificación manual.

El panorama general de 2026 es coherente. Un artículo complementario de junio de 2026, Gaming AI-Assisted Peer Reviews Poses New Risks to the Scientific Community, sostiene que a medida que la revisión se apoya en la IA, crece el incentivo para manipularla. Los ataques cross-modales son la expresión técnica de ese incentivo.

Defensas

Las conclusiones accionables, varias tomadas de la propia propuesta del artículo:

  • Tratar las figuras como entradas no confiables. Todo pipeline que entregue imágenes a un revisor MLLM debe asumir que esas imágenes pueden ser adversarias, igual que asume que el texto puede serlo.
  • Localizar, no solo clasificar. La defensa de PaperGuard utiliza una búsqueda por embeddings sobre fragmentos (chunk-based embedding search) para localizar y neutralizar instrucciones hostiles dentro de un documento largo, en lugar de puntuar el artículo entero de una vez — un enfoque más manejable para un contexto del tamaño de un artículo.
  • Mantener a un humano en la decisión. La revisión asistida por IA debe informar, no dictar, las decisiones de aceptación/rechazo; un revisor humano que nunca se fíe solo del veredicto del modelo es la red de seguridad frente a la manipulación tanto de texto como de imagen.
  • Sanear y recodificar las figuras. Recodificar o submuestrear las imágenes enviadas antes de que lleguen al modelo puede alterar las perturbaciones PGD a nivel de píxel, a costa de cierta pérdida de fidelidad.
  • Política y detección juntas. Las reglas de las conferencias contra el uso no declarado de IA solo tienen efecto si se acompañan de una detección que cubra realmente cada modalidad que consume el revisor.

Estado

ElementoValor
ArtículoarXiv:2606.12716, junio de 2026 (ICML 2026)
Canales de ataqueTexto (inyección de prompts, GCG) + imágenes (perturbación PGD)
Defensa propuestaBúsqueda por embeddings sobre fragmentos para localizar instrucciones hostiles
AntecedentesNeurIPS 2025 «Give a Positive Review Only»; inyección por font-mapping (mayo de 2026)
DisposiciónBenchmark de investigación; aquí no se difunde ningún exploit operativo

Sources