Inversión de prompts: la inferencia LLM distribuida filtra entradas; llega una defensa rigurosa
Los ataques de inversión de prompts recuperan hasta el 88,4 % de los tokens de entrada desde activaciones intermedias. Un artículo enviado el 10 de junio de 2026 propone la primera defensa con garantías formales.
¿Qué es esto?
La inferencia colaborativa reparte un modelo de lenguaje grande entre varias máquinas: un teléfono o un dispositivo edge ejecuta las primeras capas transformer, un servidor en la nube (o un enjambre de GPU voluntarias) ejecuta el resto, y solo las activaciones intermedias viajan por la red. Es una respuesta popular al coste de servir modelos open-weight — y asume, en silencio, que las activaciones pueden compartirse sin riesgo.
Esa suposición es falsa. El ataque de inversión de prompts (PIA), presentado en arXiv:2503.09022 (enviado el 12 de marzo de 2025, revisado el 2 de mayo de 2025), demuestra que un participante malicioso puede reconstruir el prompt original a partir del tensor de activaciones que recibe. En el conjunto de datos Skytrax con Llama-65B, el ataque recupera el 88,4 % de los tokens de entrada incluso invirtiendo el número máximo de capas transformer — donde la mejor línea base anterior solo alcanzaba el 22,8 %. Una línea de trabajo relacionada (arXiv:2503.09291) demostró ataques similares de inferencia de prompts contra frameworks de inferencia LLM distribuida.
El 10 de junio de 2026, un nuevo artículo — Defense Against Prompt Inversion Attacks: An Information-Theoretic Approach for LLM Collaborative Inference (arXiv:2606.11592, Noorbakhsh, Khalili y Sehatbakhsh) — propuso la primera defensa para este escenario con garantías formales en lugar de ruido heurístico.
Cómo funciona
Primero el lado del ataque: invertir activaciones de LLM se consideraba difícil por la fuerte no linealidad de las capas transformer. PIA divide el problema en dos etapas.
# Ataque de inversión de prompts (PIA), pipeline conceptual
[activación recibida]
→ Etapa 1: optimizar un embedding de entrada continuo,
restringido hacia la matriz de embeddings del modelo
→ Etapa 2: convertir los embeddings en tokens discretos,
con calibración de activaciones + especulación semántica
→ [prompt reconstruido, ~88 % de precisión por token]
El término de restricción es el truco clave: en lugar de explorar todo el espacio de embeddings, la optimización se atrae hacia puntos que corresponden a tokens reales del vocabulario, lo que hace mucho más precisa la recuperación discreta final.
El lado defensivo: arXiv:2606.11592 formaliza la fuga como información mutua entre la activación transmitida y el prompt de entrada. El marco aprende representaciones que preservan la privacidad minimizando explícitamente esa información mutua, mientras mantiene la utilidad de la tarea bajo restricciones de cómputo y latencia. En concreto, los autores insertan adaptadores de privacidad — cuellos de botella de información de baja dimensión — en el punto de corte, y derivan cotas teóricas sobre el error de reconstrucción del prompt y sobre la precisión por token de la inferencia posterior. Resultados reportados: hasta un 35 % de reducción en el éxito del ataque frente a las defensas existentes, con mejores compromisos privacidad-utilidad-latencia.
Por qué importa
Toda arquitectura que envía activaciones a través de una frontera de confianza hereda este riesgo: descarga edge-cloud, mercados de GPU y cómputo voluntario, servicio multi-parte de modelos open-weight, e incluso algunos diseños «privacy-friendly» que mantienen los embeddings en local pero transmiten salidas de capas. Los prompts que cruzan esos cables incluyen transcripciones de soporte, código fuente y consultas médicas. PIA demuestra que el receptor no necesita el texto en claro — las activaciones son el texto, con ~88 % de precisión por token.
El artículo defensivo de junio de 2026 importa por una segunda razón: documenta que las respuestas existentes — perturbación heurística, ruido ajustado empíricamente — no ofrecían ninguna comprensión teórica de cuánta privacidad compraban realmente. Esa brecha entre «añadimos ruido» y «podemos acotar el error de reconstrucción» es exactamente donde los despliegues en producción acaban quemándose.
Defensas
- Modele la amenaza de su partición. Trate a cualquier parte que reciba activaciones intermedias como capaz de leer el prompt. Si esa parte no es de confianza, el diseño equivale a enviar texto en claro, salvo prueba en contrario.
- Prefiera mecanismos con garantías frente al ruido ad hoc. Los adaptadores de privacidad con cuello de botella de información (arXiv:2606.11592) ofrecen reducción medible de información mutua y cotas de error de reconstrucción; la perturbación aleatoria, no.
- Vigile el punto de corte. La inversión se demostró incluso a través del número máximo de capas — la profundidad por sí sola no protege.
- Aísle las cargas sensibles. Encamine los prompts regulados o confidenciales a inferencia de una sola parte, o a montajes con aislamiento hardware (TEE) o cifrado de extremo a extremo, en lugar de servicio colaborativo multiinquilino.
- Evalúe contra el ataque real. Mida cualquier defensa desplegada frente a la inversión en dos etapas tipo PIA, no solo frente a líneas base antiguas de inversión de embeddings que recuperan ~23 % de los tokens.
Estado
| Elemento | Detalle |
|---|---|
| Ataque (PIA) | arXiv:2503.09022, enviado el 12 de marzo de 2025 (v3 el 2 de mayo de 2025) |
| Recuperación demostrada | 88,4 % de precisión por token, Skytrax / Llama-65B, inversión máx. de capas |
| Ataque relacionado | arXiv:2503.09291, frameworks de inferencia distribuida |
| Defensa | arXiv:2606.11592, enviado el 10 de junio de 2026 |
| Mejora reportada | Hasta 35 % de reducción del éxito del ataque vs defensas existentes |
| Diseños afectados | Inferencia particionada edge-cloud, servicio GPU distribuido/voluntario |