PROMPT INJECTION
(9)9 hack(s).
La inyección de prompts automatizada depende del modelo: TAP supera a GCG, GPT-5 resiste
Un estudio de ETH Zúrich del 9 de junio de 2026 adapta GCG y TAP a AgentDojo en 80 pares de tareas de agente. El TAP de caja negra supera al GCG por gradiente, pero los ataques ajustados en modelos pequeños no se transfieren a GPT-5.
Reprompt: exfiltración con un clic en Copilot Personal mediante prompts precargados en la URL
Un fallo ya corregido de Copilot Personal encadenaba un prompt precargado en la URL, una protección que solo verificaba la primera solicitud y respuestas dirigidas por el servidor, logrando una exfiltración sigilosa con un clic. Las lecciones de evasión son generales.
Plugins de chatbot web: cómo los widgets inseguros amplifican la inyección de prompts
Un estudio de IEEE S&P 2026 sobre 17 plugins de chatbot en más de 10.000 sitios revela historiales de conversación falsificables (inyecciones 3 a 8 veces más fuertes) y herramientas de scraping que mezclan contenido fiable y no fiable.
ASPI: pedir aclaración amplía la superficie de inyección
Un benchmark de arXiv del 17 de mayo de 2026 muestra que cuando un agente se detiene a pedir una aclaración al usuario, el éxito de la inyección sube de menos del 2 % a más del 34 % en o3 y Gemini-3-Flash.
Inyección de prompts en la práctica: ataques ocultos en el cribado de CV con LLM
Un estudio de USENIX Security 2026 sobre 196.682 CV reales halló que cerca del 1 % contiene inyecciones de prompt ocultas, y que más del 90 % son 'inyecciones de datos' invisibles, no las instrucciones explícitas que buscan los detectores actuales.
Inyección de prompt codificada: cuando los guardrails fallan porque el LLM decodifica el payload
El 4 de mayo de 2026, un tuit escrito en código Morse vació unos 175 000 $ de una billetera cripto controlada por Grok. El incidente es la demostración más cara hasta hoy de un punto ciego defensivo conocido: los filtros por coincidencia de cadenas no ven a través de las codificaciones que el propio modelo decodifica sin problema.
Inyección por font-mapping: cuando el peer review se vuelve superficie de ataque para LLM
Un benchmark de arXiv del 25 de mayo de 2026 muestra que payloads ocultos vía font-mapping hacen pasar las revisiones de un LLM de rechazo a aceptación. ICML 2026 ya usó la misma técnica en espejo para rechazar 497 artículos.
Copirate 365: encadenando inyección de prompt, invocación diferida de herramientas y secuestro de memoria en M365 Copilot (CVE-2026-24299)
El informe DEF CON de Johann Rehberger, publicado en mayo de 2026, recorre una cadena de inyección indirecta de prompt en cinco etapas que convierte un correo trampa en una puerta trasera persistente dentro de Microsoft 365 Copilot. Ya está parcheado, pero los patrones son genéricos.
ASCII Smuggling: comandos ocultos vía caracteres Unicode Tag
Los caracteres Unicode Tag (U+E0000–U+E007F) son invisibles para los humanos pero interpretados por los LLM. Los atacantes los incrustan en emails, páginas web y PDFs para inyectar comandos silenciosos que secuestran el comportamiento de agentes.