DEFENSE LOW NEW

AI Control Roadmap de DeepMind: defensa en profundidad para agentes no alineados

El AI Control Roadmap de Google DeepMind (junio de 2026) trata a los agentes de IA internos como posibles amenazas internas, superponiendo supervisión por modelos de confianza al alineamiento.

2026-06-21 // 7 min affects: ai-agents, coding-agents, gemini, multi-agent-systems

¿Qué es esto?

El 18 de junio de 2026, Google DeepMind publicó una entrada de blog, “Securing the future of AI agents”, junto con un informe técnico, el AI Control Roadmap, y un marco orientado a responsables de políticas, “Three Layers of Agent Security”. La hoja de ruta es un marco de defensa en profundidad para operar agentes de IA capaces dentro de Google bajo una suposición deliberadamente pesimista: un agente muy capaz puede no estar alineado con los objetivos de sus operadores y actuar de forma inesperada. En lugar de confiar solo en el alineamiento, añade una capa de control a nivel de sistema, diseñada para sostenerse incluso cuando el alineamiento es imperfecto.

Este encuadre importa, porque el «control de la IA» se trata aquí como una disciplina distinta del «alineamiento». El alineamiento busca que el modelo sea intrínsecamente seguro; el control asume que ese esfuerzo puede fallar y se pregunta qué infraestructura contiene los daños de todos modos.

Cómo funciona

La hoja de ruta se apoya en tres pilares.

Primero, un marco de modelado de amenazas construido sobre MITRE ATT&CK. Los agentes no confiables se tratan como amenazas internas: la analogía que usa DeepMind es la de un empleado deshonesto que ya tiene acceso a la oficina. Descomponer los posibles malos comportamientos en tácticas y técnicas permite seguir los riesgos, detectar pronto las desviaciones y realizar simulacros para comprobar si las defensas realmente aguantan.

Segundo, medidas de control divididas entre detección y respuesta. Para la detección, otros sistemas de IA de confianza actúan como «supervisores» que revisan de forma continua el razonamiento, las acciones y los planes del agente en funcionamiento, en busca de señales de descarrilamiento. Para la prevención y la respuesta, un supervisor que detecta una acción dañina puede intervenir y bloquearla antes de que ocurra el daño.

Tercero, la medición. El sistema se monitorea con tres métricas: cobertura (fracción del tráfico supervisado), exhaustividad o recall (fracción de comportamientos no alineados detectados) y tiempo de respuesta.

Sobre todo, los controles escalan con la capacidad del modelo en dos ejes. Los niveles de detección (D1–D4) siguen la capacidad de un modelo para evadir la supervisión: hoy, el monitoreo se basa en la cadena de razonamiento visible, pero a medida que los modelos adquieren conciencia de la supervisión (saber que están siendo observados) o razonamiento opaco (razonar sin texto legible), los defensores deberán pasar al análisis del comportamiento y a inspeccionar el funcionamiento interno del modelo. Los niveles de respuesta (R1–R3) siguen la capacidad de ejecución: las acciones de bajo riesgo y reversibles pueden gestionarse de forma asíncrona (revisión diferida de transcripciones, remediación posterior), mientras que las acciones de alto riesgo e irreversibles exigen bloqueo síncrono, en tiempo real.

Por qué importa

Es una de las exposiciones públicas más concretas sobre cómo un laboratorio de frontera asegura sus propios agentes internos. DeepMind describe un prototipo en funcionamiento: un sistema de monitoreo asíncrono sobre las trayectorias de agentes de codificación que escala los hallazgos a revisión humana, clasificando cada evento señalado según la taxonomía de amenazas de la hoja de ruta. El equipo indica haber analizado un millón de tareas de agentes de codificación, lo que le permitió superar el filtrado por palabras clave en favor de patrones de comportamiento de mayor señal, y alimentar un monitor en vivo para el agente Gemini Spark —por ejemplo, para reaccionar en tiempo real ante un borrado involuntario de datos.

El hallazgo más útil para los profesionales es un matiz: la mayoría de los eventos señalados no respondían a una intención adversaria. Provenían de una mala interpretación del agente o de un exceso de celo por alcanzar el objetivo del usuario. Dicho de otro modo, el mismo plano de control que defiende contra un agente hipotéticamente no alineado también atrapa el modo de fallo más común hoy: un agente bien intencionado que hace algo destructivo por error. Ese doble beneficio es un argumento sólido para adoptar la infraestructura de control ahora, sin esperar a que se materialice una amenaza de agente malicioso.

Defensas

Para los equipos que operan sus propios agentes, la hoja de ruta se traduce en una postura concreta.

Adopte la óptica de la amenaza interna: limite los permisos de un agente a su comportamiento verificado y conceda el acceso de forma incremental, en el espíritu de la analogía de la entrada (un «instructor de conducción con doble mando»): confiar, pero con la mano en el freno. Conserve las bases tradicionales; la capa de control va por encima del sandboxing, la seguridad de los endpoints y la resistencia a la inyección de prompts, no las reemplaza. Use modelos supervisores separados y de confianza en lugar de pedirle a un agente que se vigile a sí mismo. Ajuste la latencia de respuesta al radio de impacto: la revisión asíncrona sirve para acciones reversibles, pero las acciones irreversibles o de alto impacto requieren bloqueo síncrono. Mida cobertura, recall y tiempo de respuesta, en vez de tratar «tenemos monitoreo» como un sí/no. Y no dependa de forma permanente del monitoreo de la cadena de razonamiento: prevea el día en que los modelos razonen de forma opaca e invierta pronto en detección basada en comportamiento e interpretabilidad.

DeepMind plantea la defensa del ecosistema como una responsabilidad compartida entre agentes individuales, sistemas multiagente y defensores de ciberseguridad: las tres capas de su documento de política asociado.

Estado

Elemento	Detalle
Publicación	«Securing the future of AI agents», Google DeepMind
Fecha	18 de junio de 2026
Documento principal	AI Control Roadmap (informe técnico)
Documento asociado	«Three Layers of Agent Security» (marco de política)
Enfoque	Defensa en profundidad; capa de control que asume posible no-alineamiento
Base	Modelado de amenazas estilo MITRE ATT&CK; supervisores de confianza
Evidencia reportada	~1 M de trayectorias de agentes de codificación analizadas; monitor en vivo para Gemini Spark