MetaBackdoor: un disparador de puerta trasera basado en la longitud, invisible en la entrada
Un artículo de mayo de 2026 de Microsoft y el Institute of Science Tokyo implanta una puerta trasera cuyo disparador es la longitud de la entrada, no su texto. El prompt parece limpio, los filtros de contenido no ven nada y bastan 90 ejemplos envenenados.
¿Qué es esto?
El 14 de mayo de 2026, investigadores de Microsoft y el Institute of Science Tokyo publicaron MetaBackdoor (arXiv:2605.15172), un ataque de puerta trasera que rompe un supuesto sobre el que se construyen casi todas las defensas de LLM: que un disparador malicioso debe estar en el texto de la entrada. Los filtros de contenido buscan tokens sospechosos, caracteres invisibles y patrones de inyección de prompt. MetaBackdoor oculta su disparador donde ninguno mira: en la longitud de la entrada.
Casi todas las puertas traseras de LLM anteriores usan un disparador basado en contenido: un token raro, un carácter invisible, una rareza sintáctica. MetaBackdoor usa en cambio información posicional. El modelo envenenado aprende a pasar al modo de ataque cuando la entrada supera un umbral de longitud. La entrada en sí permanece limpia, visual y semánticamente: ningún token extraño, ningún carácter oculto, nada que un revisor humano o un escáner marcaría. Help Net Security cubrió el trabajo el 18 de mayo de 2026.
Cómo funciona
La intuición es arquitectónica. La autoatención de un Transformer es, por sí sola, invariante ante permutaciones; por eso los modelos deben inyectar información posicional —mediante embeddings posicionales absolutos o Rotary Positional Embeddings (RoPE)— para conocer el orden de los tokens. Eso crea un segundo canal de entrada, junto a la identidad de los tokens, y el artículo muestra que puede portar un disparador.
Para implantar la puerta trasera, un atacante con acceso a los datos de fine-tuning añade ejemplos que asocian entradas largas con la salida maliciosa, manteniendo esas entradas coherentes y naturales (los autores evitan deliberadamente el relleno o la repetición, que crearían atajos léxicos). El modelo generaliza la regla «entrada larga → comportamiento de ataque». Un análisis causal descarta las explicaciones obvias: el efecto no se debe a la longitud física de la secuencia, a los desfases de posición absolutos ni a las posiciones de padding ignoradas, sino a la estructura posicional relativa expuesta a la atención.
Capacidad Lo que desbloquea el disparador de longitud
-------------------- ----------------------------------------------------
Fuga de system Una vez cruzado el umbral de longitud, el modelo
prompt vuelca su system prompt completo, palabra por palabra
—generalizando a prompts nunca vistos en el
entrenamiento, incluso cadenas alfanuméricas
aleatorias.
Autoactivación La «bomba de relojería»: una conversación larga y
(«time bomb») corriente deriva sola a la zona de disparo y el
modelo emite una llamada de herramienta controlada
por el atacante (p. ej. una función de email falsa
que lleva el historial de la conversación).
Composición Una puerta trasera de «doble llave» que solo se
(dual-key) activa si se cumplen un disparador de contenido Y la
condición de longitud.
Aquí no se reproduce ningún payload, y ninguno hace falta para entender el mecanismo: la referencia canónica es el artículo, cuyos resultados se obtienen sobre modelos de pesos abiertos.
Por qué importa
Las cifras reportadas son lo que lo eleva por encima de la curiosidad. Bastan 90 muestras envenenadas para implantar la puerta trasera, con una tasa de éxito media del 91,43 % (±8,49 %), que se satura cerca del 100 % a una tasa de envenenamiento de alrededor del 5 %. Según la arquitectura, Qwen-3 y Phi-4 alcanzan el 100 % de ASR; Gemma-3-4B llega al 96,88 % en exact-match estricto y al 99,49 % en threshold-match, todo ello preservando la precisión normal en entradas por debajo del umbral.
Destacan tres consecuencias. Primera, el robo de system prompt: las instrucciones propietarias de una empresa —su lógica de negocio y su ventaja competitiva— pueden volcarse palabra por palabra mediante una entrada larga de aspecto inocuo, y el comportamiento generaliza a prompts nunca entrenados. Segunda, la exfiltración autónoma: en la demostración de autoactivación, un modelo produjo una llamada de herramienta de email falsa con el historial de conversación como carga útil, con éxito en el 75 % de los ensayos por encima de 700 tokens (los autores lo presentan como una prueba de concepto cuya fiabilidad depende del modelo y de la interfaz de llamada de herramientas). Tercera, y la más incómoda para los equipos de riesgo de proveedores, la persistencia en la cadena de suministro: hacer fine-tuning del modelo comprometido con datos limpios no eliminó de forma fiable la puerta trasera —persistió a alrededor del 40 % de éxito tras un reentrenamiento sustancial en una tarea sin relación. «Hicimos fine-tuning del modelo base con nuestros propios datos» ya no es un paso de limpieza.
El artículo probó tres defensas representativas contra puertas traseras —ONION (filtrado a nivel de contenido), BAIT (escaneo por inversión de objetivo) y STRIP (entropía por perturbación de la salida)— y todas fallaron o solo detectaron el ataque por accidente. Los filtros de contenido no tienen nada que filtrar; los detectores de anomalías ven texto corriente.
Defensas
MetaBackdoor explota una propiedad fundamental de cómo los Transformers procesan la posición, así que no hay parche que aplicar. Las mitigaciones transferibles tienen que ver con la procedencia y las pruebas.
- Trate la procedencia del modelo base como una cuestión de riesgo de proveedor. Pregunte a los proveedores qué controles ejercen sobre las fuentes de datos de entrenamiento y cómo detectan el envenenamiento. Un modelo construido sobre un pipeline opaco merece más escrutinio del que sugiere su comodidad, y el fine-tuning posterior no es un limpiador fiable.
- Haga red team sobre la consistencia de comportamiento según la longitud. Mantenga el significado constante y varíe la longitud. Si un modelo se comporta distinto a 500 tokens que a 5.000 para prompts semánticamente equivalentes, esa divergencia es ahora una señal que investigar: los autores señalan que los defensores detectan el ataque exactamente así.
- Reduzca el radio de impacto de los despliegues agénticos. Si un modelo comprometido puede emitir llamadas de herramientas, invocaciones de plugins o acciones automatizadas en cuanto la conversación se alarga, el argumento a favor de una confirmación humana en las acciones sensibles se refuerza. Bloquee los canales de salida (email, HTTP, recuperación) en lugar de confiar en el modelo.
- No dependa de escáneres de puertas traseras centrados en el contenido. ONION, BAIT y STRIP se diseñaron en torno a tokens sospechosos o a la entropía de las salidas; ninguno cubre un disparador no textual. La detección de disparadores posicionales es un problema abierto: superponga controles arquitectónicos (mínimo privilegio, filtrado de salidas) bajo cualquier comprobación a nivel de modelo.
Estado
| Elemento | Referencia | Fecha | Notas |
|---|---|---|---|
| Artículo MetaBackdoor | arXiv:2605.15172 | 2026-05-14 | Microsoft + Institute of Science Tokyo; disparador posicional/longitud |
| Cobertura de prensa | Help Net Security | 2026-05-18 | Enfoque empresarial: robo de prompt, exfiltración, cadena de suministro |
| Presupuesto de envenenamiento | Artículo MetaBackdoor | 2026-05-14 | ~90 muestras → 91,43 % de ASR; tasa ~5 % → ~100 % |
| Persistencia al fine-tuning | Artículo MetaBackdoor | 2026-05-14 | ~40 % de ASR conservado tras reentrenar en una tarea sin relación |
| Defensas evaluadas | Artículo MetaBackdoor | 2026-05-14 | ONION, BAIT, STRIP: todas fallaron o detección accidental |
El marco que conviene retener: se trata de un resultado de investigación sobre modelos de pesos abiertos, no de un incidente observado en producción ni de un aviso de un fabricante. La lección duradera va más allá del truco: el disparador de una puerta trasera no tiene por qué vivir en el contenido. Las defensas que solo inspeccionan lo que la entrada dice pasarán por alto los disparadores que lleva su longitud —u otra metainformación posicional que la arquitectura codifica necesariamente.