Reconstruction d'image : reconstituer des images privées depuis les embeddings d'un MLLM distribué
Un papier de juin 2026 montre qu'un participant passif d'un pipeline d'inférence MLLM distribué peut reconstituer l'image d'entrée de l'utilisateur à partir des embeddings qu'il relaie. En boîte noire, sans les poids du modèle.
De quoi s’agit-il ?
Image Prompt Reconstruction Attacks on Distributed MLLM Inference Frameworks (arXiv:2606.18710, [cs.CR], publié le 17 juin 2026, par des chercheurs de Shanghai Jiao Tong University et du MBZUAI) décrit une fuite de confidentialité propre à l’inférence distribuée des grands modèles multimodaux (MLLM). Des frameworks comme Petals et Cake — et des plateformes comme Together.ai, Prime Intellect ou Modal — répartissent un modèle sur plusieurs machines grand public : chaque participant détient une tranche de couches et transmet les embeddings intermédiaires au participant suivant. Le résultat du papier : n’importe quel participant de cette chaîne peut reconstituer l’image d’entrée soumise par un utilisateur, à partir des seuls embeddings qu’il relaie.
Ces travaux sont les premiers à démontrer une reconstruction d’image contre des MLLM. Des recherches antérieures avaient déjà montré que les prompts textuels fuyaient depuis les embeddings échangés en inférence distribuée ; ce papier étend la menace à la modalité visuelle, où une image porte bien plus de détails personnels qu’un court prompt texte.
Comment ça marche
Le modèle de menace est volontairement faible, et c’est ce qui le rend notable. L’attaquant est un participant honnête mais curieux du pipeline. L’attaque est en boîte noire (aucun accès aux poids ni à l’architecture) et passive (elle ne perturbe jamais le calcul, elle se contente d’observer les embeddings qu’elle reçoit légitimement). Aucun privilège particulier n’est requis au-delà du fait d’être l’une des machines du run distribué.
L’attaque comporte deux étapes. D’abord, une étape d’extraction des embeddings d’image sépare les tokens d’image des tokens de texte au sein de la représentation intermédiaire entremêlée. Les MLLM encadrent les tokens visuels par des tokens spéciaux stables (par exemple <start_of_image> / <end_of_image>), et l’attaquant localise ces ancres pour isoler les embeddings d’image. Dans les expériences du papier, cette étape atteint une précision d’extraction proche de 100 % sur la plupart des couches.
À partir des embeddings extraits, le papier construit deux reconstructions complémentaires :
- MPAA (Multi-resolution Patch Assembly Attack) — une reconstruction au niveau pixel. Comme les MLLM découpent l’image en patchs de taille fixe, chaque embedding porte surtout l’information d’un patch ; MPAA récupère les pixels par patch et les assemble, en fusionnant une ébauche haute et basse résolution pour le détail et la structure. Elle fonctionne le mieux sur les premières couches, où le détail visuel est encore intact.
- IEDA (Image Embedding-guided Diffusion Attack) — une reconstruction au niveau sémantique. Elle projette les embeddings dans un espace sémantique et s’en sert pour guider un modèle de diffusion. IEDA est plus robuste lorsque les couches profondes ont fusionné ou regroupé des patchs et que le détail fin a disparu, restituant le contenu de la scène même quand les pixels exacts ne le peuvent pas.
Les auteurs évaluent sur Gemma 3, Phi 4 Multimodal, Qwen 2.5 VL et Llama 4 Scout, avec des jeux de données dont CelebA (visages), COCO Caption et CC3M. MPAA donne une reconstruction pixel haute fidélité sur les premières couches ; IEDA donne une reconstruction sémantique cohérente sur toutes les couches et les quatre modèles.
Pourquoi c’est important
L’inférence distribuée est vendue comme un moyen de faire tourner de gros modèles à moindre coût en mutualisant des machines non fiables — mais mutualiser des machines non fiables, c’est précisément le risque. Les embeddings transmis entre participants ne sont pas opaques. Ce sont un encodage réversible de l’entrée de l’utilisateur, et pour une image cette entrée peut être un visage, un document, une imagerie médicale ou une capture d’écran. Un participant qui prête du temps GPU à un essaim de type Petals est, selon ces travaux, en position de récolter les images d’entrée de tout le monde sans jamais enfreindre le protocole.
La leçon de fond dépasse ce seul papier : une activation intermédiaire est une donnée sensible, pas une forme intermédiaire inoffensive. C’est l’écho multimodal de l’inversion en split learning et des attaques d’inversion de prompts texte. Partout où un modèle est coupé en travers d’une frontière de confiance et où des états cachés bruts transitent sur le réseau, la partie d’en face peut souvent les inverser vers l’entrée.
Défenses
Traitez la frontière du pipeline comme une frontière d’exfiltration. Si les participants ne sont pas mutuellement de confiance, supposez que tout embedding transmis peut être inversé vers l’entrée. Gardez les premières couches, les plus révélatrices de l’entrée — l’encodeur d’image et les premières couches du décodeur — sur du matériel de confiance et de première partie, et ne distribuez que les couches profondes, où la reconstruction est plus difficile.
N’envoyez pas d’états cachés bruts. Les recherches sur l’équivalent texte (arXiv:2606.11592, juin 2026) explorent des représentations préservant la confidentialité, fondées sur la théorie de l’information, qui conservent l’utilité de la tâche tout en supprimant le détail réversible. L’obfuscation apprise, le goulot d’étranglement (bottleneck) ou un bruit calibré sur les activations transmises augmentent le coût de la reconstruction — au prix d’un compromis d’utilité mesurable, qu’il faut tester et non présumer.
Protégez le canal et les participants. Chiffrez les embeddings en transit et contrôlez qui peut rejoindre un essaim d’inférence ; un pool de relais ouvert et sans permission est le pire des cas pour cette attaque. Pour les charges les plus sensibles, exécutez l’inférence dans un environnement d’exécution de confiance (TEE) ou gardez-la sur une infrastructure mono-locataire plutôt que sur un framework distribué partagé.
Minimisez ce que le modèle voit. La fuite concerne l’image d’entrée. Caviardez ou recadrez les zones personnelles avant la soumission quand la tâche le permet, et évitez tout simplement de faire passer visages, pièces d’identité ou images médicales par une inférence multipartite.
Statut
| Élément | Détail |
|---|---|
| Source | arXiv:2606.18710 [cs.CR], 17 juin 2026 |
| Classe | Reconstruction d’image passive, en boîte noire (confidentialité / fuite de données) |
| Cadre | Inférence MLLM distribuée (découpage de couches type Petals / Cake) |
| Attaquant | Participant honnête mais curieux relayant les embeddings intermédiaires |
| Méthodes | Extraction d’embeddings (~100 % de précision) → MPAA (pixel) + IEDA (sémantique) |
| Testé sur | Gemma 3, Phi 4 Multimodal, Qwen 2.5 VL, Llama 4 Scout |
| Statut | Divulgation de recherche ; pas de CVE produit spécifique ; défense au niveau conception |