MULTIMODAL

(3)

3 hack(s).

Sirens' Whisper : des jailbreaks inaudibles en quasi-ultrasons contre les LLM vocaux

Un article du 14 mars 2026 (Huazhong, Tsinghua, Microsoft) dissimule des prompts de jailbreak dans la bande 17–22 kHz. La non-linéarité du micro les redémodule en commandes — silencieux pour l'humain, jusqu'à 0,94 de non-refus sur des LLM vocaux commerciaux.

2026-06-18//8 min

MULTIMODAL MEDIUM

CrossMPI : une injection de prompt par image seule pilote ce que lisent et voient les VLM

Un papier de l'Université de Xidian publié sur arXiv le 15 mai 2026 introduit CrossMPI : des perturbations d'image imperceptibles modifient la façon dont les modèles vision-langage interprètent à la fois l'image et la requête textuelle de l'utilisateur, avec 66 % de réussite moyenne sur cinq LVLM.

2026-05-28//7 min

MULTIMODAL CRITICAL

AudioHijack : du son imperceptible détourne les agents vocaux (IEEE S&P 2026)

Un papier IEEE S&P du 16 avril 2026 introduit l'injection de prompt auditive : une réverbération adverse cachée dans l'audio pousse 13 modèles audio-langage et les agents vocaux commerciaux (Mistral AI, Microsoft Azure) à exécuter des actions non autorisées avec 79 à 96 % de réussite.

2026-05-26//8 min