DeepMind y socios abren un fondo de 10 M$ para la seguridad multiagente
El 11 de junio de 2026, Google DeepMind, Schmidt Sciences, la Cooperative AI Foundation y ARIA abrieron una convocatoria de 10 M$ para fundar un campo de investigación sobre la seguridad de millones de agentes de IA que interactúan.
¿Qué es esto?
El 11 de junio de 2026, Google DeepMind — junto con Schmidt Sciences, la Cooperative AI Foundation, la agencia británica ARIA (Advanced Research and Invention Agency) y con el apoyo de Google.org — anunció una convocatoria de investigación técnica de hasta 10 M$ para investigadores de todo el mundo. Su objetivo: la seguridad multiagente, es decir, el comportamiento de grandes poblaciones de agentes de IA, creados por organizaciones distintas, en cuanto empiezan a comunicarse, negociar y transaccionar entre sí a gran escala.
El enfoque es de una franqueza inusual para un anuncio de la industria. «El verdadero problema es que todavía no existe realmente un campo de investigación para la seguridad multiagente», declaró Rohin Shah, que dirige la investigación de seguridad y alineamiento de la AGI en DeepMind, a MIT Technology Review. «Y nos gustaría que lo hubiera.» Las candidaturas están abiertas hasta el 8 de agosto de 2026, y los ganadores se anunciarán en otoño.
Qué cubre la convocatoria
El argumento de DeepMind: casi todas las evaluaciones de seguridad actuales estudian un modelo de forma aislada, pero los riesgos más importantes solo aparecen cuando agentes independientes interactúan. Pueden «emerger de repente» comportamientos y capacidades colectivas y, en palabras de los organizadores, hoy «carecemos de herramientas para predecir, medir y monitorizar esas transiciones».
La convocatoria solicita propuestas en cuatro áreas prioritarias:
- Sandboxes y bancos de pruebas — entornos realistas y reproducibles (mercados virtuales, ecosistemas simulados, flujos multiorganización) para evaluar y comparar la seguridad multiagente.
- La ciencia de las redes de agentes — cómo emergen y escalan las capacidades colectivas, cómo fallan o se vuelven volátiles las redes, y cómo detectar propiedades peligrosas a nivel de población.
- Reforzar la infraestructura de los agentes — someter a prueba los protocolos de identidad, reputación y compromiso que deben asegurar las interacciones entre plataformas.
- Supervisión y control — métodos para monitorizar poblaciones de agentes desplegadas y mitigar daños colectivos a gran escala.
Preguntados por los peligros concretos, Shah y James Fox (Schmidt Sciences) describen «versiones sobrealimentadas de las cosas malas que ya ocurren en internet»: estafas, prompt injection (una sola instrucción oculta que convierte a un agente en «una pieza de malware autoguiada») y otros ciberataques, amplificados hasta que el «procomún digital» corra el riesgo de hundirse en «la anarquía absoluta».
Por qué importa
Es una cuestión de gobernanza y de construcción de un campo, no una vulnerabilidad, pero ratifica un modelo de amenaza que este sitio sigue a través de numerosos trabajos concretos: inyección indirecta que se propaga entre agentes, autorización que no se propaga limpiamente por una cadena de delegación, ataques multiagente emergentes y defensas por embeddings que se desmoronan en contextos multiagente. La tesis nueva: los resultados de seguridad de un solo agente no se extrapolan a las poblaciones, y la ciencia para cerrar esa brecha en gran medida aún no existe.
El momento es notable. DeepMind hizo de las herramientas agénticas una pieza central de Google I/O el mes pasado; semanas antes, Anthropic publicó directrices «zero trust» para desplegar agentes de IA que parten de que un agente es un atacante y de que una brecha es inevitable. Dos laboratorios de vanguardia alertan de forma independiente sobre los sistemas que despliegan. Conviene retener una reserva señalada en la cobertura: la financiación de la seguridad puede derivar hacia escenarios exóticos e hipotéticos mientras problemas «aburridos», ya en producción, quedan sin resolver.
Defensas
Para los equipos que despliegan agentes hoy, la convocatoria funciona también como una lista de los puntos más débiles de la práctica actual:
- No extrapole las evaluaciones de un solo agente. Un modelo que supera en solitario las pruebas de inyección puede comportarse mal en enjambre. Pruebe los agentes en interacción, en un sandbox, antes de producción.
- Adopte una postura zero trust entre agentes. Trate cada mensaje de otro agente como entrada no confiable, no como autoridad — la misma lección tras la tríada letal y la regla de dos de los agentes.
- Invierta en identidad, reputación y compromiso. Las interacciones entre plataformas exigen identidad y procedencia verificables, no confianza implícita en el rol que afirma quien llama.
- Monitorice a nivel de población. El registro por agente pierde los modos de fallo colectivos; instrumente la volatilidad y los comportamientos emergentes en toda la flota, con revisión humana donde el radio de impacto sea grande.
Estado
La convocatoria está abierta desde el 11 de junio de 2026; el plazo para presentar candidaturas es el 8 de agosto de 2026, con ganadores previstos para el otoño de 2026. Se apoya en el marco multiagente de 2025 de DeepMind, su trabajo sobre los «AI Agent Traps» y el informe de la Cooperative AI Foundation sobre los riesgos multiagente de la IA avanzada. No hay código, modelo ni vulnerabilidad de por medio: es un movimiento de fijación de agenda y de financiación, cuyo impacto dependerá de la investigación que finalmente respalde.
Sources
- → https://deepmind.google/blog/investing-in-multi-agent-ai-safety-research/
- → https://www.technologyreview.com/2026/06/11/1138794/google-deepmind-is-worried-about-what-happens-when-millions-of-agents-start-to-interact/
- → https://schmidtsciences.smapply.io/prog/scaling_ai_safety_for_a_multi_agent_world/
- → https://www.cooperativeai.com/post/new-report-multi-agent-risks-from-advanced-ai
- → https://arxiv.org/abs/2512.16856