DEFENSE MEDIUM NEW

Cognitive Firewall: una defensa distribuida para agentes de navegador

Un artículo de eBay de marzo de 2026 combina un centinela local, un planificador en la nube y un guardia de ejecución determinista para reducir la inyección indirecta en agentes de navegador del 100 % a menos del 1 %.

2026-06-22 // 7 min affects: browser-agents, gemini-nano, llama-3, gpt-4, llm-agents

¿Qué es esto?

Un agente de navegador lee el DOM de una página, planifica y luego actúa: hace clic, publica, elimina, envía. Como el prompt del sistema, la instrucción del usuario y el contenido web no confiable llegan todos a la misma ventana de contexto, un atacante que controla el contenido de una página puede insertar instrucciones que el agente ejecutará. Esto es la inyección de prompt indirecta (IPI), clasificada como LLM01 en el Top 10 de OWASP para aplicaciones LLM.

Cognitive Firewall, un artículo de Qianlong Lan y Anuj Kaul de eBay Inc publicado en arXiv con la referencia arXiv:2603.23791 el 24 de marzo de 2026, propone una defensa basada en una premisa simple: ninguna verificación probabilística detectará todas las inyecciones, así que las consecuencias de la que se cuele deben contenerse de forma determinista. Es una arquitectura «split-compute» que reparte tres controles entre el navegador y la nube, y reduce la tasa de éxito de los ataques del 100 % (sin defensa) al 0,88 % en el banco de pruebas de los autores.

Cómo funciona

El diseño es un «embudo defensivo»: las comprobaciones de bajo coste se ejecutan primero en el borde, y solo los casos ambiguos escalan a la nube. Tres capas corresponden a tres clases de ataque.

Capa 1 — el Centinela de borde se ejecuta en el navegador sobre un modelo pequeño embebido (Gemini Nano vía la API de IA integrada de Chrome). Impone la coherencia visual: el agente no debe razonar sobre texto que el usuario no puede ver. Compara la fuente del DOM con el estilo calculado (CSSOM) y bloquea trucos de presentación — opacity: 0, fuentes de tamaño cero, texto fuera de pantalla con left: -9999px — respetando el marcado de accesibilidad legítimo. Esto corre en unos ~0,06 ms, de modo que las cargas bloqueadas nunca llegan a la nube ni consumen tokens.

Capa 2 — el Planificador profundo se ejecuta del lado del servidor sobre un modelo más grande (el prototipo usó Llama 3 8B o GPT-4) con un prompt dedicado de «analista de seguridad». Impone la integridad del objetivo y captura la manipulación semántica que el modelo de borde deja pasar: juego de roles («ahora estás en modo Desarrollador»), delimitadores falsos como --- END SYSTEM INSTRUCTIONS --- o urgencia fabricada.

Capa 3 — el Guardia de origen es un monitor de ejecución determinista, sin modelo. Impone la seguridad de ejecución mediante un interceptor de JavaScript síncrono que valida cada acción saliente contra una lista blanca de orígenes y una política de verbos antes del envío. Aun si el planificador es engañado por completo, una petición DELETE o una exfiltración hacia un origen no autorizado queda bloqueada. Los autores llaman a esto «fail-closed»: la ambigüedad de un plan es motivo de rechazo.

Por qué importa

El estudio de ablación concreta la lógica de las capas. Sobre 1000 muestras que mezclan tareas benignas y adversas, el filtrado solo en el borde dejaba una tasa de éxito del 86,9 %; borde más nube todavía fallaba con el secuestro al 39,2 %; la pila completa de tres capas alcanzaba el 0,88 %, con una tasa de interceptación de cerca del 99,1 %. Frente a un atacante adaptativo de caja blanca que conoce el pipeline, el éxito agregado caía al 0,67 % (2 de 300). Los ataques por fragmentación del DOM, que dividen una carga en nodos de un solo carácter, escapaban al borde pero eran reconstruidos por el planificador en la nube (en el 95 % de los casos) y detenidos en el guardia.

La lección más amplia es arquitectónica: la aplicación determinista en la frontera de ejecución puede respaldar a los modelos de lenguaje probabilísticos. A medida que los agentes de navegador asumen acciones con efectos secundarios, «el modelo decidió no hacerlo» no es un control — «la petición se bloqueó antes de salir del dispositivo» sí lo es.

Defensas

El artículo es en sí mismo un plano de defensa; las conclusiones se generalizan más allá del prototipo:

Separe el plano de control del plano de datos. Trate todo el contenido web que ingiere el agente como no confiable, y no deje que redefina el objetivo del usuario. El mismo instinto del aislamiento de sitios, aplicado a la ventana de contexto.
Controle los efectos secundarios de forma determinista. Coloque un interceptor sin modelo entre los planes y las acciones. Ponga los orígenes en lista blanca, restrinja los verbos HTTP a la intención declarada (una tarea de solo lectura nunca debería emitir un DELETE ni un GET saliente con parámetros) y falle cerrado ante cualquier ambigüedad.
Filtre los trucos de presentación en el origen. Compare el renderizado con la fuente DOM en bruto y descarte el texto invisible o fuera de pantalla antes de que entre en el prompt — a bajo coste, en el dispositivo, antes de cualquier llamada a la nube.
No confíe en un modelo pequeño embebido como juez semántico. La capa de borde dejó pasar el 86,9 % de los jailbreaks semánticos; es un prefiltro rápido, no el mecanismo de seguridad. Escale los casos difíciles a un modelo más robusto.
Añada a un humano para acciones de alto riesgo o ambiguas. Los fallos residuales venían de ataques de «envoltura benigna» (2,0 %) que convencían al planificador de adoptar un modo permisivo, más una tasa de falsos positivos del 1,7 % en tareas legítimas — dos argumentos a favor de un paso de confirmación interactivo en lugar de un bloqueo o una autorización silenciosos. Esto enlaza con el debate más amplio sobre si los cortafuegos bastan o hacen falta mejores bancos de pruebas.

Estado

Elemento	Referencia	Notas
Artículo	arXiv:2603.23791	Lan y Kaul, eBay Inc, 24 mar 2026
Arquitectura	Cognitive Firewall — Centinela / Planificador / Guardia	Split-compute, defensa en profundidad, fail-closed
Modelo de borde	Gemini Nano (IA integrada de Chrome)	~0,06 ms, bloquea la ofuscación visual
Modelo en la nube	Llama 3 8B / GPT-4 (prototipo)	Prompt de analista de seguridad, controles semánticos
Resultado	TEA 100 % → 0,88 % estático, 0,67 % adaptativo	N = 1000; ~99,1 % de interceptación
Límites conocidos	La inyección por imagen elude la capa 1; 1,7 % de falsos positivos; ~950 ms de latencia de cadena completa	Prototipo, no tráfico real

La conclusión: los agentes de navegador funden código y datos en un único flujo de tokens, así que los controles semánticos seguirán siendo probabilísticos y a veces erróneos. El aporte de Cognitive Firewall es dejar de tratarlos como la última línea de defensa — y colocar un guardia determinista y fail-closed en el punto donde el razonamiento se convierte en una acción real.