INDIRECT INJECTION
(23)23 hack(s).
Inyección por objetos de mensajería: la brecha de serialización en los asistentes de IA
Imperva demostró (10 de junio de 2026) que contactos, vCards y pines de ubicación se aplanan directamente en el prompt de un asistente de IA sin frontera de contenido no confiable — un vector de inyección estructural, corregido en OpenClaw 2026.4.23.
TRAP: la persuasión desvía a los agentes web de su propia tarea
Un benchmark de Oxford actualizado en arXiv en junio de 2026 muestra que los agentes web obedecen técnicas de persuasión al estilo Cialdini ocultas en la página, abandonando su tarea en el 25% de los casos de media y hasta el 43% en el modelo más débil.
ChatGPhish: el Markdown no confiable convierte los resúmenes de ChatGPT en phishing
Permiso divulgó ChatGPhish el 29 de mayo de 2026: una página que pides resumir a ChatGPT puede mostrar enlaces maliciosos, falsas alertas, códigos QR y píxeles de rastreo dentro de la interfaz de confianza.
Lo local no es más seguro: la inyección indirecta afecta a LLM locales y en la nube
La investigación de Brave del 8 de junio de 2026 muestra que la inyección de prompts indirecta funciona igual contra un agente en la nube (Mozilla Tabstack) y un autocompletado en el dispositivo (Cotypist): el alojamiento local no es una mitigación.
Inyección por la vía de error: cuando los mensajes de error de las herramientas tienen autoridad
Un artículo de junio de 2026 (VATS) muestra que inyectar instrucciones en los mensajes de error de las herramientas triplica el éxito de la inyección indirecta en agentes de vanguardia — hasta el 100 % de cumplimiento — porque los modelos tratan la salida de error como autoritativa.
MIRAGE: agentes GUI móviles engañados por contenido de usuario inyectado
Un estudio de mayo de 2026 muestra que los agentes GUI móviles basados en VLM no distinguen la interfaz de confianza del contenido de usuario. Texto realista inyectado en comentarios secuestra a los cinco agentes probados (23–30 % de éxito).
LogJack: los logs en la nube como canal de inyección de prompts contra agentes de depuración
Un benchmark de abril de 2026 muestra que los agentes de depuración LLM que leen logs en la nube y ejecutan correcciones obedecen instrucciones ocultas en las líneas de log: ejecución literal de hasta 86,2 %, RCE en 6 de 8 modelos y barreras de los proveedores que apenas detectan nada.
Agentjacking: errores falsos de Sentry secuestran agentes de código vía MCP
La investigación de Tenet Security (junio de 2026) muestra que un atacante puede inyectar un error falso de Sentry que los agentes de código leen por MCP y ejecutan, exfiltrando secretos con un 85 % de éxito en 2 388 organizaciones expuestas.
Cross-App Context Poisoning: una app de ChatGPT maliciosa puede dirigir a las demás
Un estudio de arXiv de junio de 2026 muestra que una app maliciosa de ChatGPT puede escribir en el contexto de conversación compartido por todas las apps conectadas mediante API first-party, convirtiendo al modelo en un diputado confundido.
Profundidad de inyección en agentes ReAct: la posición pesa más que la redacción
Un estudio de junio de 2026 sobre agentes ReAct con llamadas a herramientas halla que la profundidad de inyección —no la retórica— gobierna la inyección indirecta: 60 % de éxito en la primera llamada, 0 % en la cuarta.
DACSI: cuando los documentos recuperados falsifican las señales de control del sistema
Un artículo del 8 de junio de 2026 da nombre a un modo de fallo silencioso del RAG: texto no confiable que suplanta señales de metadatos, procedencia y política. Sin «ignore previous instructions» — la lección: una etiqueta escrita en un documento es dato, no política.
La paradoja de la inyección: cuando una inyección de prompt se vuelve en contra y borra una marca en RAG
Un preprint de arXiv del 8 de junio de 2026 muestra que una inyección de prompt en un documento recuperado puede volverse en contra en modelos Claude alineados, hundiendo una marca del 54 % al 0 % de recomendación — y abriendo un contraataque contra competidores.
Decision Hijacking: inyectar el LLM que ordena tus resultados de búsqueda
Una serie de investigaciones de 2025-2026 demuestra que cuando un LLM reordena candidatos de búsqueda o de RAG, unas pocas líneas inyectadas en un solo documento bastan para colocarlo primero — la calidad del ranking se desploma más de 60 puntos NDCG, y los modelos más potentes son los más vulnerables.
AgentRedBench: la inyección indirecta en agentes SaaS es un fallo de autorización
AgentRedBench (junio de 2026) somete a red teaming a agentes LLM que leen herramientas SaaS como Gmail y Jira. Sin protección, la tasa de éxito de los ataques va del 32 % al 81 % en ocho modelos de frontera, hasta que un clasificador de respuestas de herramientas la reduce.
Envenenamiento de descripción: el canal de agente que tus benchmarks no prueban
Una demo en AWS Bedrock AgentCore de mayo de 2026 y un paper de arXiv de junio de 2026 coinciden en el mismo punto ciego: las descripciones de herramientas, leídas antes de cada llamada, son un canal de inyección que los controles de infraestructura y los benchmarks de un solo número pasan por alto.
ChatInject: falsificar las etiquetas de rol del chat template para eludir la jerarquía de instrucciones
Un artículo de ICLR 2026 muestra que envolver una carga de inyección indirecta en los tokens del chat template de un modelo falsifica un rol prioritario y eleva la tasa de éxito del 5 % al 32 % en AgentDojo, y hasta el 52 % en multironda.
IPI Arena: 272 000 ataques y ningún modelo de agente a salvo
La Indirect Prompt Injection Arena de Gray Swan, evaluada con UK AISI y US CAISI, lanzó más de 272 000 ataques contra 13 modelos de frontera. Todos fueron secuestrados — y una única plantilla universal venció a nueve.
Silent Egress: la inyección implícita filtra datos a través de las vistas previas de URL
Un estudio de eBay (arXiv, 25 de febrero de 2026) demuestra que un agente que previsualiza URL de forma automática puede ser inducido a exfiltrar su contexto de ejecución mediante llamadas a herramientas — P(egress)≈0,89, y el 95 % de las fugas dejan la respuesta visible totalmente inocua.
IterInject: cuando un LLM optimiza sus propias inyecciones de prompt indirectas
Un artículo del 23 de mayo de 2026 cierra el bucle payload / diagnosticador / optimizador LLM — el ASR de inyección indirecta sube de casi cero a 33–90 % en InjecAgent y 5 de 9 objetivos caen en Claude Code.
GrafanaGhost: inyección indirecta de prompt encadenada con un bug de parseo de URL para exfiltrar datos de paneles
La divulgación del 7 de abril de 2026 de Noma Security muestra cómo tres defectos modestos — un punto de inyección almacenado, una comprobación startsWith('/') y un bypass de guardarraíl en una sola palabra — se combinan en un canal silencioso de exfiltración a través del asistente IA de Grafana.
XSS en Discourse AI (CVE-2026-27740): cuando la salida de un LLM se trata como HTML de confianza
Un mensaje reportado, un moderador IA, una llamada a htmlSafe. El plugin Discourse AI trataba la salida del LLM como marcado de confianza, convirtiendo una prompt injection indirecta en XSS contra el staff. Publicado el 19 de marzo de 2026.
Inyección indirecta de prompts en la web: tres estudios convergen en abril de 2026
Google, Forcepoint y CISPA midieron de forma independiente la inyección indirecta de prompts en la web abierta en abril de 2026. El balance: más de 15 000 cargas validadas, 32 % de crecimiento y plantillas industrializadas.
ShareLeak (CVE-2026-21520): el primer CVE asignado por Microsoft a una inyección de prompt en Copilot
Divulgado el 15 de abril de 2026, el informe ShareLeak de Capsule Security describe una inyección indirecta de prompt en Microsoft Copilot Studio. Microsoft asignó CVE-2026-21520 (CVSS 7.5) — un precedente que recalifica la prompt injection como clase de vulnerabilidad rastreada.