DATA LEAK MEDIUM NEW

Canaux auxiliaires sur l'inférence LLM : vos prompts fuient malgré TLS

Le décodage spéculatif et les réponses en streaming créent des motifs de trafic qui révèlent le sujet d'un prompt, sa langue, parfois des données personnelles — à travers des connexions chiffrées. Tour d'horizon de trois papers et des défenses.

2026-06-17 // 7 min affects: chatgpt, claude, vllm, open-weight-llms

What is this?

Les attaques par canal auxiliaire ne lisent pas le contenu de votre conversation avec un LLM — elles en lisent la forme. La taille et le rythme des paquets chiffrés renvoyés par un modèle portent assez de structure pour déduire de quoi vous parlez, alors même que TLS dissimule chaque octet du texte réel. Le 17 février 2026, Bruce Schneier a regroupé trois papers qui rendent cela concret ; ensemble, ils décrivent une classe de fuite de confidentialité indépendante de l’injection de prompt et des jailbreaks, qui touche des services en production de grands fournisseurs.

Le fil conducteur : les optimisations qui rendent le service LLM rapide — streaming token par token, décodage spéculatif, décodage parallèle — dépendent des données. La vitesse d’arrivée des tokens et leur nombre par flush réseau dépendent de ce que le modèle génère. Cette dépendance est un signal mesurable. Nous traitons le sujet car c’est un risque structurel de confidentialité qu’aucun filtrage d’entrée ni modération de sortie ne corrige, et parce que les défenseurs pensent rarement que « la trace réseau d’une session de chat » est une donnée sensible.

How it works

Trois résultats publiés cartographient la surface. Aucun n’exige de casser le chiffrement.

Remote Timing Attacks on Efficient Language Model Inference (arXiv 2410.17175, publié en octobre 2024) montre que des techniques comme l’échantillonnage spéculatif et le décodage parallèle introduisent des caractéristiques temporelles dépendantes des données. En observant passivement le trafic chiffré entre un utilisateur et un modèle distant, un observateur apprend quand les réponses sont plus rapides ou plus lentes. Sur des systèmes open source, les auteurs retrouvent le sujet d’une conversation — par exemple conseil médical versus aide au code — avec une précision supérieure à 90 % ; face à ChatGPT et Claude en production, ils distinguent des messages précis ou déduisent la langue de l’utilisateur ; et un adversaire actif, via une technique de boosting, peut récupérer des données personnelles comme des numéros de téléphone ou de carte sur des déploiements open source.

When Speculation Spills Secrets (arXiv 2411.01076, publié en novembre 2024) isole spécifiquement le décodage spéculatif. Comme le schéma vérifie plusieurs tokens candidats en parallèle, le nombre par itération de tokens acceptés versus rejetés dépend de l’entrée et se voit dans la taille des paquets. Testé sur des prototypes de recherche et sur vLLM de qualité production, un observateur identifie les requêtes parmi un jeu de 50 prompts avec plus de 75 % de précision à température 0,3 — REST 100 %, LADE 91,6 %, BiLD 95,2 %, EAGLE 77,6 % — restant bien au-dessus de la référence aléatoire de 2 % même à température 1,0. Le même canal laisse fuir le contenu confidentiel du datastore utilisé pour la prédiction à plus de 25 tokens/sec.

Whisper Leak (arXiv 2511.03675, publié en novembre 2025) généralise le cas du streaming sur 28 LLM populaires de grands fournisseurs, classant le sujet d’un prompt à partir de la taille et du rythme des paquets souvent avec >98 % d’AUPRC, et atteignant 100 % de précision sur des sujets sensibles comme « blanchiment d’argent » même à un déséquilibre bruit/cible de 10 000:1. Les auteurs ont procédé à une divulgation responsable et travaillé avec les fournisseurs sur de premières contre-mesures.

Ce que voit un espion réseau        Ce qui fuit
----------------------------------  -----------------------------------------
Inter-token arrival timing          Topic class, conversation language
Per-iteration token / packet count  Speculative accept/reject pattern → query
                                     fingerprint, datastore contents
Streaming packet size distribution  Topic classification across many models

Why it matters

On est ici dans un modèle de menace différent de la plupart des attaques LLM. L’adversaire est quiconque observe le chemin réseau — un FAI, un État pratiquant la surveillance, une personne sur le même Wi-Fi, ou un routeur amont compromis — et il n’a besoin ni d’un compte, ni d’un prompt malveillant, ni d’un accès au modèle. La fuite survit à TLS car elle réside dans les métadonnées, pas dans le texte en clair. Pour qui utilise un LLM sur des sujets médicaux, juridiques, financiers ou confidentiels, « de quel sujet je parle » est en soi sensible, et l’inférence de sujet à 98 % d’AUPRC est une vraie divulgation. Le résultat d’extraction du datastore est pire : il peut extraire le contenu de récupération d’un système en production par le seul timing. Cela rejoint le problème plus large de fuite côté inférence que nous avons traité dans le vol de prompt par timing du cache de préfixe et les budgets de fuite à l’inférence — la couche de service, pas seulement le modèle, est une surface d’attaque.

Defenses

Les papers proposent et évaluent des mitigations concrètes. Le constat honnête des auteurs de Whisper Leak : chacune aide, mais aucune ne ferme totalement le canal — il faut donc les superposer.

Rembourrez la taille des paquets. Le padding aléatoire et la mise en tampon à taille fixe brouillent le signal de taille qui identifie les requêtes. Cela coûte de la bande passante ; prévoyez-le sur les points d’accès sensibles.
Regroupez et agrégez les tokens avant le flush. L’agrégation de tokens par itération et le batching cassent la relation « un token par paquet » que le décodage spéculatif expose. On échange un peu de latence perçue contre une forte réduction du signal.
Injectez du trafic de couverture. L’injection de paquets ajoute des flushes leurres pour que le flux observable ne suive plus la génération. Évaluée par Whisper Leak comme un contrôle partiel.
Traitez le décodage spéculatif/parallèle comme un paramètre de confidentialité. Pour les charges très confidentielles, envisagez de désactiver le décodage spéculatif ou d’exécuter le modèle en déploiement local isolé, afin qu’il n’y ait aucun fil observable entre l’utilisateur et le modèle.
Ne comptez pas sur TLS seul pour la confidentialité. Si vos utilisateurs peuvent faire face à des adversaires au niveau réseau, documentez que les sujets des prompts peuvent fuir, et routez les usages sensibles via des points d’accès paddés/batchés ou une inférence sur site.

Status

Ce sont des résultats publiés et issus de circuits évalués, pas des zero-days, et la variante streaming a été divulguée de façon responsable avec des contre-mesures fournisseurs en cours. Considérez les mitigations ci-dessus comme l’état de l’art actuel : elles réduisent, sans l’éliminer, la fuite de métadonnées du service LLM.