DATA POISONING MEDIUM NEW

Oracle poisoning: corromper el grafo de conocimiento sobre el que razona un agente

Un artículo publicado en arXiv el 10 de mayo de 2026 define el Oracle Poisoning: corrompa el grafo de conocimiento que un agente consulta en tiempo de ejecución y llegará a conclusiones falsas mediante un razonamiento correcto. En nueve modelos, la confianza en los datos envenenados alcanzó el 100 % en consultas agénticas dirigidas.

2026-06-19 // 6 min affects: llm-agents, knowledge-graph-rag, tool-use-agents, gpt-5.1

¿Qué es esto?

El 10 de mayo de 2026, los investigadores Ben Kereopa-Yorke, Guillermo Diaz, Holly Wright, Reagan Johnston, Ron F. Del Rosario y Timothy Lynar publicaron Oracle Poisoning: Corrupting Knowledge Graphs to Weaponise AI Agent Reasoning (arXiv:2605.09822, cs.CR/cs.AI). Definen el Oracle Poisoning como una clase de ataque en la que un adversario corrompe un grafo de conocimiento estructurado que un agente de IA consulta en tiempo de ejecución mediante tool-use, de modo que el agente llega a conclusiones erróneas mediante un razonamiento correcto.

La distinción con la inyección de prompts es el punto central. La inyección de prompts altera las instrucciones del agente; el Oracle Poisoning altera los datos sobre los que el agente razona. Nunca se engaña al modelo para que se comporte mal: recupera fielmente un hecho desde una herramienta de confianza y razona con solidez a partir de él. El hecho simplemente es falso. Es la misma familia de problema de integridad explorada para la recuperación basada en grafos por trabajos como KEPo (envenenamiento por evolución del conocimiento en RAG sobre grafos, ACM Web Conference 2026), pero demostrada aquí contra un sistema agéntico a escala de producción y no sobre un benchmark.

Cómo funciona

Muchos agentes tratan ya un grafo de conocimiento como un oráculo con autoridad: una llamada a herramienta devuelve nodos y aristas (entidades, relaciones, afirmaciones), y el agente integra esos resultados en su respuesta. El artículo estudia un grafo de conocimiento de código de 42 millones de nodos en producción y presenta seis escenarios de ataque en los que un adversario altera el contenido del grafo, por ejemplo inyectando la afirmación fabricada de que un componente es seguro.

La evaluación usa tool-use real con SDK en nueve modelos de tres proveedores (N=30 por modelo): el modelo invoca de forma autónoma una herramienta de consulta del grafo y razona a partir de los resultados. Los hallazgos:

Consultas dirigidas: cada modelo probado aceptó los datos envenenados al 100 % en cuanto el atacante alcanzaba una sofisticación moderada (nivel L2). En 269 de 270 ensayos válidos, los modelos aceptaron afirmaciones de seguridad fabricadas.
Prompts abiertos: la confianza baja al 3–55 %, lo que los autores señalan como un sesgo de formulación, reportando con honestidad ambas condiciones en lugar de elegir la más favorable.
Un gradiente de sofisticación con puntos de ruptura: la confianza pasa del 0 % al 100 % superado un nivel mínimo de habilidad, replanteando la pregunta como cuánto esfuerzo se necesita, no si el ataque funciona.
El modo de entrega es un sesgo de primer orden. Evaluar la misma carga en modo inline puede producir falsos negativos: GPT-5.1 muestra un 0 % de confianza en inline, pero un 100 % bajo tool-use agéntico simulado y real. Probar un modelo en una ventana de chat no dice cómo se comportará su agente.

No hace falta ninguna cadena de explotación para entender la lección, y aquí no se reproduce ninguna: el mecanismo es de integridad de datos, no un prompt ingenioso.

Por qué importa

Los sistemas agénticos externalizan cada vez más la verdad de referencia a capas de recuperación —grafos de conocimiento, bases vectoriales, wikis internos— bajo el supuesto de que los datos recuperados son de fiar. El Oracle Poisoning muestra que ese supuesto es determinante y está en gran medida desprotegido. Si un atacante puede escribir en el oráculo, el agente se convierte en un canal confiado y bien argumentado de las afirmaciones del atacante, y las defensas habituales (alineamiento, jerarquías de instrucciones, filtros antiinyección) nunca se activan, porque no se inyectó ninguna instrucción.

Los autores señalan que el ataque parece generalizarse al ecosistema de grafos de conocimiento, según el análisis de cuatro plataformas adicionales. La superficie de exposición concreta está en cualquier lugar donde un agente disponga, o pueda ser orientado hacia, un almacén de conocimiento compartido y mutable: grafos de inteligencia de código, CMDB, grafos de threat intel, corpus RAG con rutas de escritura.

Defensas

El artículo evalúa cinco defensas y reconoce con franqueza que solo una es decisiva:

El control de acceso de solo lectura elimina el vector de mutación directa: si los agentes y los escritores no confiables no pueden modificar el oráculo, se cierra la ruta de ataque más limpia. Trate el grafo de conocimiento como un almacén privilegiado, con autorización de escritura estricta y registro de auditoría.
Las otras cuatro defensas son parciales y dependientes del modelo; no confíe en una sola. Superpóngalas.
Procedencia e integridad del contenido del grafo: firme o atribuya las afirmaciones, rastree quién escribió cada nodo/arista y exponga la confianza/la fuente al paso de razonamiento en lugar de presentar los hechos recuperados como verdad incondicional.
Pruebe con tool-use real, no inline. Como el modo de entrega invierte los resultados, las evaluaciones de seguridad y los ejercicios de red team deben ejercitar la ruta agéntica real, o reportarán falsos negativos.
Limite la confianza en las afirmaciones recuperadas: exija corroboración para aseveraciones de alto impacto (por ejemplo, «X es seguro») y mantenga a un humano en el bucle para decisiones que dependan de un solo hecho recuperado.

Estado

Elemento	Valor
Artículo	Oracle Poisoning (arXiv:2605.09822)
Publicado	10 de mayo de 2026
Clase	Envenenamiento de grafo/oráculo (distinto de la inyección de prompts)
Probado	9 modelos, 3 proveedores, grafo de código de 42 M de nodos
Resultado principal	100 % de confianza en datos envenenados en consultas agénticas dirigidas (L2)
Defensa más fuerte	Control de acceso de solo lectura (las demás parciales, dependientes del modelo)

Fecha clave: 10 de mayo de 2026 — primera demostración empírica de envenenamiento de grafo de conocimiento contra un sistema agéntico a escala de producción. Este artículo resume investigación pública con fines defensivos y no reproduce ninguna carga de ataque.