MULTIMODAL MEDIUM NEW

Sirens' Whisper: jailbreaks inaudibles en casi ultrasonidos contra LLM de voz

Un artículo del 14 de marzo de 2026 (Huazhong, Tsinghua, Microsoft) oculta prompts de jailbreak en la banda de 17–22 kHz. La no linealidad del micrófono los vuelve a demodular como órdenes: silenciosos para el humano, hasta 0,94 de no rechazo en LLM de voz comerciales.

2026-06-18 // 8 min affects: deepseek, glm-4-air, grok-4, glm-4-voice, qwen-omni-turbo

¿Qué es esto?

El 14 de marzo de 2026, investigadores de la Universidad de Ciencia y Tecnología de Huazhong, la Universidad de Tsinghua y Microsoft publicaron Sirens’ Whisper (SWhisper), un marco que entrega prompts de jailbreak a LLM controlados por voz a través de un canal que el oído humano no percibe. El prompt se codifica en la banda casi ultrasónica de 17–22 kHz, se reproduce con un altavoz corriente y luego se vuelve a demodular como una orden audible gracias a la no linealidad del micrófono de la víctima. Para una persona presente suena a silencio: un estudio de usuarios controlado consideró el audio inyectado «perceptualmente indistinguible del simple ruido de fondo». Para el modelo, es una instrucción hablada.

Es la idea del canal acústico encubierto detrás de DolphinAttack y NUIT, llevada a la era de los asistentes de voz respaldados por grandes modelos de lenguaje. La aportación no es «un ultrasonido puede llegar a un micrófono» —eso ya se sabe—, sino que un prompt de jailbreak estructurado, de varias frases, puede sobrevivir al trayecto y dirigir un LLM de voz comercial en caja negra. Lo tratamos porque la voz se está convirtiendo en una interfaz por defecto (Apple, Google y Amazon despliegan asistentes de voz) y un canal de inyección de prompts inaudible cambia el modelo de amenaza de todos ellos.

Cómo funciona

Un micrófono no es un dispositivo perfectamente lineal. Su respuesta incluye términos de orden superior, modelados en el artículo como S_out = k1·S_in + k2·S_in² + k3·S_in³ + …. El término cuadrático k2·S_in² mezcla una portadora de alta frecuencia hacia la banda audible. SWhisper explota precisamente esto: modula el audio objetivo sobre una portadora casi ultrasónica mediante modulación de banda lateral única, y el propio hardware del micrófono hace la «decodificación».

Lo difícil es la fidelidad. El casi ultrasonido sufre una fuerte absorción en el aire y una respuesta de hardware irregular por encima de 17 kHz, de modo que una portadora ingenua llega inservible. El movimiento central del artículo es la precompensación por inversión de canal: modela la función de transferencia combinada de micrófono y canal y luego predistorsiona la forma de onda para que lo que cae en la banda base coincida con el prompt deseado en distintos dispositivos y salas.

Altavoz atacante                 Micrófono de la víctima      LLM de voz
----------------                 -----------------------      ----------
prompt → modulación SSB    →      demodulación no          →   «transcribe»
a 17–22 kHz, con                  lineal (término k2·S_in²)    el prompt
precompensación por               recupera el audio en         recuperado como
inversión de canal                banda base, en claro         orden hablada

Aquí no se reproduce ningún payload. El modelo de amenaza es el detalle operativo. El modelo objetivo se trata como caja negra (audio de entrada, audio de salida); el atacante optimiza contra un modelo sustituto en caja blanca y confía en la transferencia. El ataque debe lograrse en una sola consulta, usa altavoces de consumo (sin equipo ultrasónico especializado) y se demostró a ~1 m, orientación de 0°, con 36–38 dB de ruido ambiente. La eficacia reportada alcanza hasta 0,94 de no rechazo y 0,925 de «specific-convincing» en modelos comerciales, evaluada con la metodología StrongREJECT sobre un subconjunto de prompts de AdvBench. Los objetivos probados incluyeron DeepSeek (modo Non-Thinking), GLM-4-Air y Grok-4 como LLM de voz, además de los modelos de audio de extremo a extremo GLM-4-Voice y Qwen-Omni-Turbo.

Por qué importa

Las barreras textuales nunca ven este ataque. El filtrado de entrada, los prompts de moderación y el entrenamiento de jerarquía de instrucciones operan sobre la transcripción, pero la instrucción maliciosa se inyecta por debajo de la aplicación, en el hueco analógico entre un altavoz corriente y el micrófono. Cuando el audio se convierte en texto, ya parece un enunciado de usuario legítimo.

Las limitaciones son reales y conviene plantearlas con claridad: el ataque necesita un altavoz a aproximadamente un metro, es sensible al ángulo y la distancia y, como jailbreak, produce sobre todo contenido prohibido más que acciones privilegiadas. Pero dos tendencias elevan lo que está en juego. La voz pasa de «hacer una pregunta» a «hacer algo»: agentes que envían mensajes, controlan dispositivos o disparan llamadas a herramientas. Y los autores señalan que este mismo canal encubierto «permite una clase más amplia de ataques de inyección de prompts y ejecución de órdenes de alta fidelidad», no solo jailbreaks. Una instrucción inaudible que llega a un agente con herramientas reales es justo lo que los defensores deben anticipar ahora.

Defensas

La inyección ocurre en la capa de señal, así que la defensa tiene que empezar ahí y subir por toda la pila. El propio artículo analiza contramedidas basadas en la señal y en el texto; los principios duraderos están bien establecidos en la literatura sobre inyección acústica.

Filtrado paso bajo / antialiasing antes del modelo. Limite la banda y filtre la cadena del micrófono para atenuar la energía por encima del rango de la voz humana (aproximadamente >8 kHz) antes de que llegue al reconocimiento de voz. Esto ataca directamente la portadora de la que depende la demodulación.
Detectar energía casi ultrasónica. Vigile la banda de 17–22 kHz en busca de las señales estructuradas y sostenidas que estos ataques requieren. Un contenido de alta frecuencia persistente durante una orden «hablada» es una anomalía que conviene señalar o rechazar.
Endurecer la etapa de entrada del micrófono. El hardware y el firmware que suprimen la demodulación no lineal (mejor diseño analógico, protecciones antiultrasonido) eliminan la primitiva física. Es la corrección más completa y la más lenta de desplegar.
Controlar las acciones, no solo las palabras. Trate cualquier acción de alto impacto iniciada por voz —envío de datos, mensajería, compras, control de dispositivos o herramientas— como algo que exige confirmación explícita y fuera de banda. Una transcripción con jailbreak no debería bastar para actuar.
Añadir comprobaciones de vivacidad y procedencia. La verificación del hablante, el desafío-respuesta y el rechazo de órdenes sin contexto conversacional normal aumentan el coste de una inyección inaudible de un solo intento.
Modelar la amenaza del hueco analógico. Las revisiones de seguridad de los agentes de voz deben incluir explícitamente los canales físico-acústicos, no solo la interfaz textual. Asuma que el micrófono puede ser direccionado por señales que el usuario nunca oye.

Estado

Elemento	Referencia	Fecha	Notas
Artículo SWhisper (arXiv:2603.13847v1)	Huazhong U. / Tsinghua / Microsoft	2026-03-14	Primer marco de inyección de prompts casi ultrasónica encubierta hacia LLM de voz en caja negra
Banda portadora	Artículo	2026-03-14	17–22 kHz, modulación de banda lateral única, precompensación por inversión de canal
Eficacia reportada	Artículo	2026-03-14	Hasta 0,94 de no rechazo / 0,925 de «specific-convincing» en modelos comerciales
Perceptibilidad humana	Estudio de usuarios	2026-03-14	Audio inyectado indistinguible del simple ruido de fondo
Objetivos evaluados	Artículo	2026-03-14	DeepSeek, GLM-4-Air, Grok-4; LALM GLM-4-Voice, Qwen-Omni-Turbo

La conclusión no es que un modelo de voz concreto esté «roto», sino que el micrófono forma parte de su superficie de ataque. A medida que los LLM de voz adquieren la capacidad de actuar, el canal analógico entre un altavoz y un micrófono se convierte en una vía de inyección que ningún alineamiento a nivel de texto puede cerrar. Las defensas que importan son el filtrado de señal, el endurecimiento del hardware y negarse a que una simple transcripción autorice acciones de consecuencia.