ADVERSARIAL

(10)

10 hack(s).

PRAC: secuestrar la elección de un agente de uso de ordenador vía su atención

Un artículo de Tübingen (abril de 2026) muestra que una sola imagen de producto perturbada de forma imperceptible puede concentrar la atención visual de un agente de uso de ordenador y dirigir el 82 % de sus selecciones, sin tocar nunca su salida.

2026-06-22//6 min

ADVERSARIAL MEDIUM NEW

Cuando el revisor de IA no sabe leer la figura: ataques cross-modales a la revisión por pares

Un artículo de arXiv de junio de 2026 (PaperGuard) muestra que los revisores de IA son vulnerables no solo por el texto, sino por las figuras — la inyección de prompts en caja negra y las perturbaciones de imagen en caja blanca invierten el veredicto.

2026-06-20//6 min

ADVERSARIAL MEDIUM NEW

Rapid Poison: cuando una defensa anti-jailbreak se vuelve superficie de ataque

Un artículo de arXiv del 15 de junio de 2026 muestra que el paso de proliferación de las defensas Rapid Response puede envenenarse a una tasa del 1 %, forzando hasta un 100 % de falsos positivos o un 96 % de falsos negativos en el clasificador.

2026-06-19//8 min

ADVERSARIAL MEDIUM NEW

Black-Hole Attack: envenenar una base de datos vectorial mediante la geometría de los embeddings

Un artículo del 7 de abril de 2026 muestra que unos pocos vectores situados cerca del centroide aparecen hasta en el 99,85 % de los top-10: un envenenamiento de bases vectoriales independiente de la consulta y del modelo.

2026-06-18//6 min

ADVERSARIAL MEDIUM NEW

M3Att: envenenamiento de RAG médico multimodal sin conocer las consultas

Un artículo de mayo de 2026 envenena un RAG médico de imagen-texto sin conocer de antemano las consultas de los usuarios. Perturbaciones de imagen imperceptibles secuestran la recuperación; un texto guiado por la ambigüedad clínica evade la autocorrección del modelo — y las defensas de prefiltrado apenas lo afectan.

2026-06-17//7 min

ADVERSARIAL MEDIUM NEW

CRCP: envenenamiento de corpus RAG que sobrevive al chunking y al reranking

Un artículo de arXiv del 9 de junio de 2026 muestra que muchos ataques de envenenamiento de corpus fallan en silencio tras el reranking, y propone CRCP, una variante "chunk-aware" diseñada para sobrevivir a pipelines RAG realistas. La lección trata de cómo se evalúa, no solo de cómo se defiende.

2026-06-15//6 min

ADVERSARIAL MEDIUM NEW

HPAA: tipografía que el humano lee pero los LLM de moderación pasan por alto

Un artículo del 8 de junio de 2026 presenta los ataques adversarios perceptibles por humanos: texto dañino que sigue siendo evidente para un lector, pero que evade la moderación por LLM mediante manipulación tipográfica.

2026-06-11//5 min

ADVERSARIAL MEDIUM NEW

SlotGCG: la posición del token adverso, no solo su contenido, determina el jailbreak

Un artículo de junio de 2026 muestra que los jailbreaks tipo GCG ganan ~14 % de eficacia cuando los tokens adversos se sitúan en posiciones correlacionadas con la atención, y conservan un 42 % de éxito frente al filtrado de entrada.

2026-06-08//6 min

ADVERSARIAL MEDIUM NEW

SilentRetrieval: envenenamiento fluido de corpus RAG que evade los filtros de perplejidad

Un preprint de arXiv del 27 de mayo de 2026 presenta un ataque en dos etapas que oculta disparadores de secuestro dentro de documentos fluidos, alcanzando 57 % de éxito LLM en Natural Questions y MS MARCO con un solo documento envenenado por consulta.

2026-05-29//7 min

ADVERSARIAL MEDIUM

Usability as a Weapon: cómo una petición de mejora vuelve inseguro el código de un LLM

Un paper de arXiv del 11 de mayo de 2026 demuestra que pedirle a un LLM de código una versión 'más rápida', 'más simple' o con 'una función más' elimina las protecciones de forma silenciosa. UPAttack llega al 98,1 % en GPT-5.2-chat y Gemini-3.

2026-05-26//8 min