RESEARCH MEDIUM NEW

Confusión de rol: por qué los LLM obedecen al texto que «suena» con autoridad

Un nuevo artículo de ICML 2026 del MIT sostiene que la inyección de prompts es en realidad «confusión de rol»: el modelo deduce quién habla por el estilo del texto, no por su origen. El razonamiento falsificado alcanzó ~60 % de éxito, y una reescritura casi invisible lo redujo al 10 %.

2026-06-26 // 6 min affects: gpt-oss-20b, open-weight-llms, closed-weight-llms, llm-agents

¿Qué es esto?

Prompt Injection as Role Confusion es un artículo de investigación de Charles Ye, Jasmine Cui y Dylan Hadfield-Menell (MIT CSAIL, Algorithmic Alignment Group), publicado en arXiv con la referencia 2603.12277 y aceptado en ICML 2026. Ganó visibilidad después de que Simon Willison lo reseñara el 22 de junio de 2026. El trabajo propone una explicación mecanicista única de por qué la inyección de prompts lleva años resistiendo a los parches: los modelos no saben de forma fiable quién habla.

Los LLM modernos delimitan el texto con etiquetas de rol — <system>, <user>, <assistant> y etiquetas de razonamiento como <think> — y se entrenan para otorgar distinta autoridad a cada rol. La tesis central es incómoda: el modelo decide a qué rol pertenece un fragmento de texto según cómo está escrito, no según su procedencia real. Como dicen los autores, «la seguridad se define en la interfaz, pero la autoridad se asigna en el espacio latente». Un texto no confiable que imita el estilo de un rol privilegiado puede heredar la autoridad de ese rol.

Cómo funciona

Los autores construyeron «sondas de rol» (role probes): clasificadores ligeros que leen las activaciones internas de un modelo para recuperar su propia percepción de quién habla. Con estas sondas demuestran que el grado de confusión de rol es medible antes incluso de generar el primer token, y que esa confusión interna predice con fuerza el éxito de una inyección.

El ataque se deriva directamente del diagnóstico. Se toma una petición prohibida común situada en el turno del usuario y se le añade un texto cuyo estilo imita el razonamiento interno o las notas de política del modelo: la cadencia de un bloque <think> que afirma una excepción de política (inventada). Para un humano, ese texto añadido es claramente más entrada de usuario. Para el modelo, se lee como un monólogo interno privilegiado: la petición hereda así una autoridad elevada y el entrenamiento de seguridad queda anulado. El artículo reporta este resultado en modelos de pesos abiertos como gpt-oss-20b y en una variedad de modelos de pesos abiertos y cerrados.

No hace falta un payload inédito para entender el resultado, así que no incluimos ninguno aquí. Lo que importa es el efecto medido: inyectar razonamiento falsificado alcanzó ~60 % de éxito medio en StrongREJECT y 61 % en una tarea de exfiltración por agente, partiendo de líneas base cercanas a cero.

La otra cara es el resultado más accionable. Los autores prueban el «destyling»: reescribir el texto no confiable para que se lea igual para una persona, pero ya no coincida con el formato esperado de un rol privilegiado. El resultado:

El destyling hace que el éxito medio de los ataques se desplome del 61 % al 10 % en nuestro conjunto de datos. Un cambio casi invisible para un humano transforma por completo la percepción de rol del LLM.

Por qué importa

Esto reformula la inyección de prompts: de una lista de trucos ingeniosos pasa a ser una propiedad estructural de cómo funcionan hoy los modelos. Si un modelo asigna autoridad por el estilo, entonces toda defensa que dependa de etiquetas de rol o delimitadores como frontera de confianza es frágil por construcción: un atacante capaz de escribir «con la voz adecuada» puede ascender datos no confiables a un rol de confianza. También explica esa sensación de juego del topo: parchear formulaciones aisladas no toca el mecanismo subyacente.

Importa sobre todo para agentes y RAG, donde el contenido no confiable (páginas web, salidas de herramientas, documentos recuperados, correos) fluye a la misma ventana de contexto que las instrucciones del sistema. El resultado de exfiltración muestra que la confusión no se limita a los rechazos en el chat: alcanza a los flujos con herramientas, donde el coste de un rol secuestrado es un movimiento real de datos. Los autores advierten además de una amenaza más sutil: inyecciones que desplazan de forma gradual y «legal» la percepción de rol del modelo mediante texto de apariencia inocua, en lugar de una cadena maliciosa evidente.

Defensas

No trate las etiquetas de rol ni los delimitadores como frontera de seguridad. La separación <system> / <user> es una convención de interfaz, no un mecanismo de autorización. Asuma que cualquier texto puede reclamar cualquier rol.
Normalice / «destyle» la entrada no confiable antes de que llegue al modelo. Elimine o reescriba el contenido que imita el formato de sistema, razonamiento o asistente (falsos bloques <think>, pseudonotas de política, formato de resultados de herramientas). Por sí sola, esta medida pasó el éxito de los ataques del 61 % al 10 % en su conjunto de datos.
Use las sondas de rol como señal de detección. La confusión de rol interna es medible antes de la generación; una lectura de alta confusión en una petición es una alerta temprana para bloquearla o escalarla.
Mantenga controles a nivel de arquitectura. La normalización de estilo es mitigación, no garantía. Combínela con separación de privilegios y la disciplina «trifecta letal» / «Agents Rule of Two»: limite a cualquier agente no supervisado a, como mucho, dos de {datos privados, contenido no confiable, comunicación externa}.
Restrinja el egress y el alcance de las herramientas del agente. Dado que el impacto demostrado es la exfiltración, ponga en lista blanca los destinos salientes y limite las herramientas al mínimo privilegio, para que un rol secuestrado no pueda llegar lejos.
Filtre las salidas además de las entradas. Una comprobación de segunda etapa sobre acciones y respuestas limita el daño cuando un rol confundido se cuela.

Estado

Elemento	Detalle
Artículo	Prompt Injection as Role Confusion, arXiv:2603.12277
Autores	Charles Ye, Jasmine Cui, Dylan Hadfield-Menell (MIT CSAIL)
Conferencia	Aceptado en ICML 2026
Probado en	Modelos de pesos abiertos y cerrados, incl. `gpt-oss-20b`
Éxito del ataque	~60 % StrongREJECT; 61 % exfiltración por agente (base ≈ 0)
Defensa destyling	Éxito del ataque 61 % → 10 %
Puesto de relieve	Reseña de Simon Willison, 22 de junio de 2026

Conclusión: hasta que los modelos logren una verdadera percepción de rol — distinguir quién habla de cómo está escrito el texto — las defensas contra la inyección de prompts basadas en etiquetas de rol seguirán perdiendo ante un texto redactado con la voz adecuada. La palanca práctica hoy es normalizar la entrada no confiable para que deje de suplantar un rol de confianza, y hacer cumplir la autoridad en la arquitectura en lugar de en el prompt.