MULTIMODAL
(3)3 hack(s).
Sirens' Whisper: jailbreaks inaudibles en casi ultrasonidos contra LLM de voz
Un artículo del 14 de marzo de 2026 (Huazhong, Tsinghua, Microsoft) oculta prompts de jailbreak en la banda de 17–22 kHz. La no linealidad del micrófono los vuelve a demodular como órdenes: silenciosos para el humano, hasta 0,94 de no rechazo en LLM de voz comerciales.
CrossMPI: inyección de prompt solo por imagen dirige lo que leen y ven los VLM
Un artículo de la Universidad de Xidian publicado en arXiv el 15 de mayo de 2026 presenta CrossMPI: perturbaciones de imagen imperceptibles que modifican cómo los modelos de visión-lenguaje interpretan tanto la imagen como la solicitud textual del usuario, con un 66 % de éxito promedio en cinco LVLM.
AudioHijack: audio imperceptible secuestra agentes de voz (IEEE S&P 2026)
Un artículo de IEEE S&P del 16 de abril de 2026 introduce la inyección de prompt auditiva: una reverberación adversaria oculta en el audio empuja a 13 modelos de audio-lenguaje y a agentes de voz comerciales (Mistral AI, Microsoft Azure) a ejecutar acciones no autorizadas con un 79-96% de éxito.