DEFENSE MEDIUM NEW

Parallax: poner la seguridad de los agentes en la arquitectura, no en el prompt

Un position paper publicado el 14 de abril de 2026 sostiene que las salvaguardas a nivel de prompt se derrumban en cuanto se compromete el razonamiento de un agente, y propone separar estructuralmente lo que piensa de lo que actúa.

2026-06-16 // 8 min affects: llm-agents, autonomous-ai-agents, ai-copilots

¿De qué se trata?

Parallax es un paradigma defensivo expuesto en un position paper, «Parallax: Why AI Agents That Think Must Never Act», publicado en arXiv el 14 de abril de 2026 (arXiv:2604.12986, por el investigador independiente Joel Fokou). Su argumento es directo: la forma dominante de asegurar a los agentes —escribir instrucciones de seguridad en el prompt del sistema— opera al mismo nivel de abstracción que los ataques que pretende frenar, y por tanto deja de sostenerse en cuanto se manipula el modelo. El autor propone sacar la frontera de seguridad del lenguaje natural y llevarla a la arquitectura del sistema, y aporta una implementación de referencia de código abierto (OpenParallax, escrita en Go) para mostrar cómo se ve en la práctica.

Es una propuesta de un solo autor, con un prototipo y una evaluación realizada por el propio autor, no un resultado reproducido de forma independiente. La cubrimos porque nombra con nitidez una brecha que reaparece en casi todos los incidentes de agentes: cuando el componente de razonamiento se compromete, los controles que viven dentro de ese componente desaparecen con él.

Cómo funciona

Parallax parte de una distinción que el paper califica de diferencia de tipo, no de grado. Un LLM conversacional produce contenido; un agente produce acciones —escrituras de archivos, comandos de shell, llamadas a API, modificaciones de bases de datos—. El entrenamiento de seguridad responde a «¿está el modelo produciendo lo correcto?». La seguridad de un agente debe responder a «¿está el sistema haciendo lo correcto?», incluso cuando al modelo ya lo han convencido de hacer lo incorrecto.

La crítica en tres puntos a las salvaguardas a nivel de prompt vale la pena repetirla, porque cada punto remite a ataques que hemos documentado:

Mismo sustrato que la amenaza. Instrucciones y datos no confiables fluyen por un único mecanismo de atención, sin separación estructural —la condición misma que hace posible la inyección de prompts.
Se degradan en contexto largo. El historial acumulado desplaza la frontera efectiva de las restricciones, y el envenenamiento de memoria puede implantar instrucciones que persisten entre sesiones.
No sobreviven a la propagación multiagente. En cuanto la salida de un modelo se vuelve la entrada de otro, una sola inyección recorre todas las capas posteriores.

Frente a eso, Parallax propone cuatro principios, todos tomados de prácticas asentadas de seguridad de sistemas en lugar de inventados para la IA:

Separación cognitivo-ejecutiva. El componente que razona sobre una acción se vuelve estructuralmente incapaz de ejecutarla, y el que ejecuta es incapaz de razonar. Es la separación de privilegios (Provos et al.) aplicada a los agentes: la frontera vive en el aislamiento de procesos, no en la contención del modelo.
Validación adversarial con determinismo graduado. Un validador independiente y multinivel se interpone entre razonamiento y ejecución y decide si una acción propuesta está permitida. Punto clave: el validador es inmutable respecto a lo que valida —la misma lógica de ancla de confianza que un TPM o un HSM.
Control de flujo de información. Etiquetas de sensibilidad de los datos se propagan por el flujo de trabajo (política tipo Bell-LaPadula), lo que permite detectar amenazas dependientes del contexto como «lee este archivo privado y luego haz una petición saliente» —el lethal trifecta expresado como regla de flujo.
Ejecución reversible. El estado se captura antes de cualquier acción destructiva, para poder revertir cuando la validación falla.

La versión en una frase, del paper: el sistema que razona sobre las acciones debe ser estructuralmente incapaz de ejecutarlas, y el sistema que ejecuta las acciones debe ser estructuralmente incapaz de razonar, con un validador independiente e inmutable interpuesto entre ambos. Aquí no se reproduce ningún exploit: la contribución es una arquitectura, no un ataque.

Por qué importa

La idea más útil del paper es su método de evaluación, la Assume-Compromise Evaluation: en lugar de probar si el modelo puede ser vulnerado, los autores asumen que ya lo ha sido, sortean por completo el sistema de razonamiento e inyectan llamadas a herramientas maliciosas directamente en la frontera de ejecución. Es la pregunta correcta para agentes en producción, porque deja de evaluar la parte del sistema que todos ya saben poco fiable y empieza a evaluar la parte que se supone debe contener el daño.

Bajo esa prueba —280 casos adversariales en nueve categorías de ataque— la implementación de referencia reportada bloquea el 98,9 % de los ataques con cero falsos positivos en su configuración por defecto, y el 100 % en una configuración de seguridad máxima. Tómense como cifras de prototipo autoinformadas, no como un benchmark establecido. La parte duradera es la tesis estructural que las sostiene: una salvaguarda a nivel de prompt ofrece cero protección cuando el sistema de razonamiento está comprometido, porque solo existe dentro del sistema comprometido. Una frontera arquitectónica, en cambio, se sostiene sin importar lo que al modelo lo hayan llevado a intentar.

Todo esto llega en el momento en que la industria ha reconocido abiertamente que la inyección de prompts quizá no sea plenamente resoluble a nivel de modelo —la misma conclusión alcanzada, por caminos muy distintos, por los trabajos que afirman que los agentes siempre acabarán cediendo a la inyección de prompts y por la lectura de la seguridad de agentes como problema de sistemas. Parallax es un voto más por el mismo giro: dejar de querer hacer al modelo perfectamente fiable y diseñar para que un modelo poco fiable no pueda causar daño irreversible. Resuena directamente con la regla de dos de los agentes y con la autorización de herramientas basada en la tarea.

Defensas

Parallax es una propuesta de defensa; sus conclusiones son, por tanto, patrones arquitectónicos aplicables sin adoptar su implementación concreta:

Separe el planificador del ejecutor. No deje que el componente que ingiere contenido no confiable sea el mismo que tiene privilegios de ejecución. Coloque una frontera de proceso o de confianza entre «decidir» y «hacer».
Interponga un validador independiente que el agente no pueda modificar. Lo que controla una acción no debe compartir estado, prompt ni memoria con el bucle de razonamiento; de lo contrario, comprometer al razonador compromete el control. Es la lógica tras las salvaguardas con límites demostrables.
Haga reversibles las acciones destructivas. Tome una instantánea antes de escrituras, borrados y cambios de configuración, para que una acción incorrecta sea un incidente del que se vuelve, no una brecha que se descubre más tarde.
Siga el flujo de los datos, no solo las llamadas aisladas. Etiquete los datos sensibles y bloquee los flujos que combinan lectura privada y canal saliente: el trifecta es una propiedad del camino, no de un paso único.
Asuma la compromisión cuando pruebe. Evalúe su frontera inyectando acciones más allá del modelo, no solo intentando vulnerarlo. Si su relato de seguridad se derrumba cuando se asume el modelo hostil, ese relato era el modelo.

Una salvedad que el propio paper plantea: la aplicación arquitectónica añade latencia y coste de ingeniería, y un validador demasiado tosco bloqueará trabajo legítimo. El punto no es que las cifras de Parallax sean definitivas, sino que la frontera pertenece a la arquitectura.

Estado

Elemento	Valor
Fuente	arXiv:2604.12986v1, «Parallax: Why AI Agents That Think Must Never Act»
Autor	Joel Fokou (investigador independiente)
Publicación	14 de abril de 2026
Tipo	Position paper + implementación de referencia de código abierto (OpenParallax, Go)
Tesis central	La seguridad de los agentes debe aplicarse arquitectónicamente; las salvaguardas a nivel de prompt fallan bajo un razonador comprometido
Resultado reportado	98,9 % de 280 casos adversariales bloqueados, 0 falsos positivos (por defecto); 100 % (seguridad máx.) — prototipo, autoinformado
Madurez	Propuesta de un solo autor; aún no reproducida de forma independiente