DATA LEAK MEDIUM NEW

Canales laterales en la inferencia de LLM: tus prompts se filtran pese a TLS

La decodificación especulativa y las respuestas en streaming generan patrones de tráfico que revelan el tema de un prompt, su idioma e incluso datos personales — a través de conexiones cifradas. Repaso de tres papers y las defensas.

2026-06-17 // 7 min affects: chatgpt, claude, vllm, open-weight-llms

What is this?

Los ataques de canal lateral no leen el contenido de tu conversación con un LLM — leen su forma. El tamaño y la cadencia de los paquetes cifrados que devuelve un modelo portan suficiente estructura para inferir de qué hablas, aunque TLS oculte cada byte del texto real. El 17 de febrero de 2026, Bruce Schneier agrupó tres papers que lo hacen concreto; juntos describen una clase de fuga de privacidad independiente de la inyección de prompts y los jailbreaks, que afecta a servicios en producción de grandes proveedores.

El hilo conductor: las optimizaciones que aceleran el servicio de LLM — streaming token a token, decodificación especulativa, decodificación paralela — dependen de los datos. La velocidad con que llegan los tokens y cuántos se envían por flush de red dependen de lo que genera el modelo. Esa dependencia es una señal medible. Lo cubrimos porque es un riesgo estructural de privacidad que ni el filtrado de entrada ni la moderación de salida resuelven, y porque los defensores rara vez consideran que «la traza de red de una sesión de chat» sea un dato sensible.

How it works

Tres resultados publicados cartografían la superficie. Ninguno exige romper el cifrado.

Remote Timing Attacks on Efficient Language Model Inference (arXiv 2410.17175, publicado en octubre de 2024) muestra que técnicas como el muestreo especulativo y la decodificación paralela introducen características temporales dependientes de los datos. Observando pasivamente el tráfico cifrado entre un usuario y un modelo remoto, un observador aprende cuándo las respuestas son más rápidas o más lentas. En sistemas de código abierto, los autores recuperan el tema de una conversación — por ejemplo, consejo médico frente a ayuda con código — con más del 90 % de precisión; frente a ChatGPT y Claude en producción, distinguen mensajes concretos o infieren el idioma del usuario; y un adversario activo, mediante una técnica de boosting, puede recuperar datos personales como números de teléfono o de tarjeta en despliegues de código abierto.

When Speculation Spills Secrets (arXiv 2411.01076, publicado en noviembre de 2024) aísla específicamente la decodificación especulativa. Como el esquema verifica varios tokens candidatos en paralelo, el número por iteración de tokens aceptados frente a rechazados depende de la entrada y se ve en el tamaño de los paquetes. Probado en prototipos de investigación y en vLLM de grado producción, un observador identifica consultas de un conjunto de 50 prompts con más del 75 % de precisión a temperatura 0,3 — REST 100 %, LADE 91,6 %, BiLD 95,2 %, EAGLE 77,6 % — manteniéndose muy por encima de la línea base aleatoria del 2 % incluso a temperatura 1,0. El mismo canal filtra el contenido confidencial del datastore usado para la predicción a más de 25 tokens/seg.

Whisper Leak (arXiv 2511.03675, publicado en noviembre de 2025) generaliza el caso del streaming sobre 28 LLM populares de grandes proveedores, clasificando el tema de un prompt a partir del tamaño y la cadencia de los paquetes a menudo con >98 % de AUPRC, y alcanzando el 100 % de precisión en temas sensibles como «blanqueo de capitales» incluso con un desequilibrio ruido/objetivo de 10.000:1. Los autores hicieron una divulgación responsable y colaboraron con los proveedores en las primeras contramedidas.

Lo que ve un espía de red           Lo que se filtra
----------------------------------  -----------------------------------------
Inter-token arrival timing          Topic class, conversation language
Per-iteration token / packet count  Speculative accept/reject pattern → query
                                     fingerprint, datastore contents
Streaming packet size distribution  Topic classification across many models

Why it matters

Esto se sitúa en un modelo de amenaza distinto al de la mayoría de los ataques a LLM. El adversario es cualquiera que pueda observar la ruta de red — un ISP, un Estado que practica vigilancia, alguien en la misma Wi-Fi o un router superior comprometido — y nunca necesita una cuenta, un prompt malicioso ni acceso al modelo. La fuga sobrevive a TLS porque vive en los metadatos, no en el texto plano. Para quien usa un LLM en asuntos médicos, legales, financieros o confidenciales, «de qué tema hablo» ya es sensible, y la inferencia de tema al 98 % de AUPRC es una divulgación real. El resultado de extracción del datastore es peor: puede sacar el contenido de recuperación de un sistema en producción solo con el timing. Esto conecta con el problema más amplio de fuga del lado de la inferencia que tratamos en el robo de prompts por timing de la caché de prefijos y los presupuestos de fuga en la inferencia — la capa de servicio, no solo el modelo, es una superficie de ataque.

Defenses

Los papers proponen y evalúan mitigaciones concretas. El resumen honesto de los autores de Whisper Leak: cada una ayuda, pero ninguna cierra del todo el canal, así que conviene combinarlas.

Rellena el tamaño de los paquetes. El padding aleatorio y el almacenamiento en búfer de tamaño fijo difuminan la señal de tamaño que identifica las consultas. Cuesta ancho de banda; presupuéstalo en los endpoints sensibles.
Agrupa y agrega tokens antes del flush. La agregación de tokens por iteración y el batching rompen la relación «un token por paquete» que expone la decodificación especulativa. Se cambia algo de latencia percibida por mucha reducción de señal.
Inyecta tráfico de cobertura. La inyección de paquetes añade flushes señuelo para que el flujo observable deje de seguir la generación. Whisper Leak la evalúa como un control parcial.
Trata la decodificación especulativa/paralela como un ajuste de privacidad. Para cargas muy confidenciales, considera desactivar la decodificación especulativa o ejecutar el modelo en un despliegue local aislado, de modo que no exista cable observable entre el usuario y el modelo.
No confíes solo en TLS para la confidencialidad. Si tus usuarios pueden enfrentarse a adversarios a nivel de red, documenta que los temas de los prompts pueden filtrarse y enruta los usos sensibles por endpoints con padding/batching o inferencia on-premise.

Status

Son resultados publicados y de circuitos revisados, no zero-days, y la variante de streaming se divulgó de forma responsable con contramedidas de los proveedores en marcha. Considera las mitigaciones anteriores como el estado del arte actual: reducen, sin eliminarla, la fuga de metadatos del servicio de LLM.