RESEARCH MEDIUM NEW

Asegurar el RAG: cuatro superficies de ataque a lo largo del pipeline de acceso al conocimiento

Un estudio de junio de 2026 replantea la seguridad del RAG en torno al acceso a conocimiento externo, separando los fallos propios de los LLM del riesgo que introduce el RAG en cuatro superficies y tres fronteras de confianza.

2026-06-19 // 7 min affects: rag-systems, graphrag, multimodal-rag, enterprise-ai-assistants

¿De qué se trata?

La generación aumentada por recuperación (RAG) es hoy la forma predeterminada de dar a un LLM acceso a documentos privados, bases de datos y conocimiento actualizado. También es una superficie de seguridad que la mayoría de los modelos de amenaza tratan mal, porque diluyen los riesgos propios del RAG dentro de la «seguridad genérica de los LLM». Un estudio publicado en arXiv el 9 de abril de 2026 y revisado el 8 de junio de 2026 —Securing Retrieval-Augmented Generation: A Taxonomy of Attacks, Defenses, and Future Directions, de Yuming Xu y colegas de la Universidad Politécnica de Hong Kong y la HKUST (Guangzhou)— propone un enfoque más preciso: la seguridad del RAG trata fundamentalmente de la seguridad del pipeline de acceso a conocimiento externo, no de los parámetros del modelo ni del prompt del usuario. Ese simple replanteamiento cambia dónde buscar los ataques y dónde situar los controles.

Cómo funciona

El estudio abstrae cualquier sistema RAG en un flujo de seis etapas: fuentes externas aportan contenido en bruto; un pipeline de ingesta lo analiza e indexa en un sustrato de conocimiento consultable; la recuperación y el reranking seleccionan la evidencia candidata para una consulta; el ensamblado de contexto construye el prompt visible para el modelo; el generador responde; y el sistema entrega la respuesta con registro y remediación. A lo largo de ese camino identifica tres fronteras de confianza y cuatro superficies de ataque.

La primera superficie es la corrupción del sustrato de conocimiento previa a la recuperación: envenenar el corpus antes de que se ejecute consulta alguna. Como el contenido implantado se presenta luego como evidencia legítima, persiste a través de consultas, usuarios y sesiones. El estudio cataloga el envenenamiento de corpus y documentos, los ataques contra la cadena de ingesta (contenido malicioso oculto en formatos de documento comunes), el envenenamiento de almacenes basados en grafos y multimodales, y el envenenamiento orientado a código que empuja dependencias controladas por el atacante al código generado. Cubrimos casos concretos en el envenenamiento de corpus que sobrevive al reranking y el envenenamiento silencioso de corpus RAG.

La segunda superficie es la manipulación del acceso en el momento de la recuperación: distorsionar, redirigir o suprimir qué documentos se seleccionan, a menudo consulta por consulta e incluso en caja negra, donde el atacante solo puede sondear la interfaz de recuperación. La tercera, y la frontera que los autores consideran «la más importante», es la explotación del contexto recuperado aguas abajo: en cuanto la evidencia recuperada se vuelve contexto visible para el modelo, datos externos no confiables pueden dirigir directamente la generación, el mecanismo tras la inyección de prompt indirecta. La cuarta es la exfiltración de conocimiento y los ataques a la privacidad, donde los adversarios usan la interfaz a la inversa para inferir o extraer registros sensibles del sustrato; véase la inferencia de pertenencia sobre RAG.

Es clave que los autores definan una frontera operativa para mantener el alcance honesto: un riesgo se considera introducido por el RAG solo cuando el conocimiento externo es el principal portador de la amenaza, cuando el acceso al conocimiento crea un punto de entrada que no existe con el uso solo de prompt, o cuando la recuperación incrementa materialmente la persistencia, la transferibilidad o el radio de impacto de la amenaza. Los jailbreaks solo por prompt y la pura memorización paramétrica quedan explícitamente fuera de alcance.

Por qué importa

Este replanteamiento importa porque explica por qué los fallos del RAG son peores que los fallos transitorios de prompt. Un sustrato envenenado convierte un evento puntual y local a una consulta en un compromiso persistente de un estado compartido: reutilizable entre consultas, transferible entre usuarios y más difícil de detectar, atribuir y eliminar. La conclusión rotunda del estudio es que las defensas actuales «siguen siendo en gran medida reactivas y fragmentadas». Una revisión paralela de marzo de 2026, Towards Secure RAG, llega a un veredicto similar sobre amenazas, defensas y benchmarks, y la inyección de prompt indirecta observada en condiciones reales muestra que la superficie aguas abajo se explota en sistemas reales, no solo en laboratorio. Para los equipos que despliegan asistentes RAG, la implicación práctica es que el filtrado de entrada a nivel de prompt es el lugar equivocado, y el último, donde defenderse.

Defensas

El estudio organiza la remediación como controles distribuidos a lo largo del mismo pipeline, una capa por superficie. Asocie sus defensas con la frontera que realmente protegen:

Integridad y procedencia de la base de conocimiento (previa a la recuperación). Trate la ingesta como una frontera de confianza. Valide y sanee los documentos al analizarlos, rastree la procedencia por fragmento para poder atribuir y revocar el contenido envenenado, y restrinja el acceso de escritura al corpus. Aquí la persistencia es la ventaja del atacante: conserve la capacidad de remediar —reindexar y purgar—, no solo de detectar.
Endurecimiento del acceso en la recuperación. Endurezca recuperadores y rankers frente a la manipulación de relevancia: vigile cambios anómalos de clasificación, diversifique o combine la recuperación, y evite confiar en un único recuperador denso susceptible de ser comprometido con una puerta trasera. Una defensa por recuperación híbrida encarece el envenenamiento con una sola carga.
Aislamiento del contexto tras la recuperación (aguas abajo). Asuma que el texto recuperado puede contener instrucciones. Aísle la evidencia de los comandos, marque la autoridad de la fuente por el canal en lugar de por lo escrito dentro de la fuente —el punto de la suplantación de señal de control— y limite aquello sobre lo que el generador puede actuar.
Control de acceso, privacidad y confidencialidad (exfiltración). Aplique autorización por documento para que la recuperación no devuelva registros que el usuario no debería ver, y limite o audite los patrones de respuesta que sondean el sustrato para extraer datos.

La recomendación de futuro del estudio es una protección por capas, consciente de las fronteras, en todo el ciclo de vida del acceso al conocimiento en lugar de una única barrera. Ningún control aislado cierra la superficie; el propósito de la taxonomía es asegurar que ninguna de las cuatro quede sin defensa.

Estado

Elemento	Detalle
Fuente	Securing RAG: A Taxonomy of Attacks, Defenses, and Future Directions (arXiv:2604.08304)
Publicación	v1 9 de abril de 2026; revisión 8 de junio de 2026
Afiliación	Universidad Politécnica de Hong Kong; HKUST (Guangzhou)
Marco	Pipeline de seis etapas, tres fronteras de confianza, cuatro superficies de ataque
Afirmación clave	Asegurar el RAG = asegurar el pipeline de acceso a conocimiento externo
Estado de las defensas	«En gran medida reactivas y fragmentadas»; se recomienda defensa por capas

La lección duradera: deje de preguntar si su LLM es «seguro» y empiece a preguntar qué frontera de su pipeline de acceso al conocimiento cruzaría un atacante, porque en el RAG el corpus es estado compartido, y el estado compartido sigue comprometido hasta que se remedia.