ADVERSARIAL
(10)10 hack(s).
PRAC: secuestrar la elección de un agente de uso de ordenador vía su atención
Un artículo de Tübingen (abril de 2026) muestra que una sola imagen de producto perturbada de forma imperceptible puede concentrar la atención visual de un agente de uso de ordenador y dirigir el 82 % de sus selecciones, sin tocar nunca su salida.
Cuando el revisor de IA no sabe leer la figura: ataques cross-modales a la revisión por pares
Un artículo de arXiv de junio de 2026 (PaperGuard) muestra que los revisores de IA son vulnerables no solo por el texto, sino por las figuras — la inyección de prompts en caja negra y las perturbaciones de imagen en caja blanca invierten el veredicto.
Rapid Poison: cuando una defensa anti-jailbreak se vuelve superficie de ataque
Un artículo de arXiv del 15 de junio de 2026 muestra que el paso de proliferación de las defensas Rapid Response puede envenenarse a una tasa del 1 %, forzando hasta un 100 % de falsos positivos o un 96 % de falsos negativos en el clasificador.
Black-Hole Attack: envenenar una base de datos vectorial mediante la geometría de los embeddings
Un artículo del 7 de abril de 2026 muestra que unos pocos vectores situados cerca del centroide aparecen hasta en el 99,85 % de los top-10: un envenenamiento de bases vectoriales independiente de la consulta y del modelo.
M3Att: envenenamiento de RAG médico multimodal sin conocer las consultas
Un artículo de mayo de 2026 envenena un RAG médico de imagen-texto sin conocer de antemano las consultas de los usuarios. Perturbaciones de imagen imperceptibles secuestran la recuperación; un texto guiado por la ambigüedad clínica evade la autocorrección del modelo — y las defensas de prefiltrado apenas lo afectan.
CRCP: envenenamiento de corpus RAG que sobrevive al chunking y al reranking
Un artículo de arXiv del 9 de junio de 2026 muestra que muchos ataques de envenenamiento de corpus fallan en silencio tras el reranking, y propone CRCP, una variante "chunk-aware" diseñada para sobrevivir a pipelines RAG realistas. La lección trata de cómo se evalúa, no solo de cómo se defiende.
HPAA: tipografía que el humano lee pero los LLM de moderación pasan por alto
Un artículo del 8 de junio de 2026 presenta los ataques adversarios perceptibles por humanos: texto dañino que sigue siendo evidente para un lector, pero que evade la moderación por LLM mediante manipulación tipográfica.
SlotGCG: la posición del token adverso, no solo su contenido, determina el jailbreak
Un artículo de junio de 2026 muestra que los jailbreaks tipo GCG ganan ~14 % de eficacia cuando los tokens adversos se sitúan en posiciones correlacionadas con la atención, y conservan un 42 % de éxito frente al filtrado de entrada.
SilentRetrieval: envenenamiento fluido de corpus RAG que evade los filtros de perplejidad
Un preprint de arXiv del 27 de mayo de 2026 presenta un ataque en dos etapas que oculta disparadores de secuestro dentro de documentos fluidos, alcanzando 57 % de éxito LLM en Natural Questions y MS MARCO con un solo documento envenenado por consulta.
Usability as a Weapon: cómo una petición de mejora vuelve inseguro el código de un LLM
Un paper de arXiv del 11 de mayo de 2026 demuestra que pedirle a un LLM de código una versión 'más rápida', 'más simple' o con 'una función más' elimina las protecciones de forma silenciosa. UPAttack llega al 98,1 % en GPT-5.2-chat y Gemini-3.