DEFENSE

Cognitive Firewall: una defensa distribuida para agentes de navegador

Un artículo de eBay de marzo de 2026 combina un centinela local, un planificador en la nube y un guardia de ejecución determinista para reducir la inyección indirecta en agentes de navegador del 100 % a menos del 1 %.

2026-06-22//7 min

AI Control Roadmap de DeepMind: defensa en profundidad para agentes no alineados

El AI Control Roadmap de Google DeepMind (junio de 2026) trata a los agentes de IA internos como posibles amenazas internas, superponiendo supervisión por modelos de confianza al alineamiento.

2026-06-21//7 min

LLM salting: rotar la dirección de rechazo para romper la reutilización de jailbreaks

El «LLM salting» de SophosAI (CAMLIS 2025) aplica una pequeña rotación a la dirección de rechazo de un modelo: un jailbreak precalculado contra el modelo base deja de transferirse a tu despliegue — la defensa de las rainbow tables, aplicada a los LLM.

2026-06-21//6 min

Desorientación defensiva: por qué bloquear jailbreaks automatizados puede volverse en contra

Un artículo de junio de 2026 modela el juez automático del atacante y muestra que los rechazos predecibles alimentan su bucle de búsqueda — propone desorientación controlada en vez de simple bloqueo.

2026-06-21//6 min

El desaprendizaje de backdoors generaliza: eliminar un disparador puede suprimir otros

Un artículo de junio de 2026 muestra que enseñar a un LLM a ignorar un disparador de backdoor también puede debilitar otras backdoors nunca atacadas, cuando sus desplazamientos de activación internos son próximos, medidos con una nueva métrica: CASD.

2026-06-21//6 min

Por qué fallan los rechazos de los agentes: el Cybersecurity Refusal Framework

Un nuevo benchmark muestra que los rechazos de seguridad de los agentes dependen de la cadena de URL, no del objetivo real. Dos trucos triviales — falsas «reglas de enfrentamiento» y proxy localhost — convierten el rechazo en obediencia sobre sitios de producción.

2026-06-20//7 min

Seguridad MCP: la pregunta no es qué ataques existen, sino dónde deben estar las defensas

Un artículo de arXiv de abril de 2026 mapea los ataques a MCP en seis capas arquitectónicas y halla defensas desiguales y demasiado centradas en la herramienta, dejando la orquestación del host, el transporte y la cadena de suministro estructuralmente desprotegidos.

2026-06-20//7 min

Localizar la inyección de prompts: de la detección a la escisión forense

Detectar una inyección de prompts solo indica que algo va mal. Dos trabajos de 2026, PromptLocate y WebSentinel, identifican con precisión qué fragmento del contexto está envenenado para extirparlo y recuperar la tarea.

2026-06-20//6 min

SEAgent: control de acceso obligatorio contra la escalada de privilegios de los agentes

Un artículo de enero de 2026 replantea los ataques a agentes como escalada de privilegios — acciones que exceden el mínimo privilegio necesario — y propone SEAgent, una capa MAC/ABAC determinista aplicada sobre un grafo de flujo de información.

2026-06-20//7 min

Cordon: contención transaccional para agentes LLM con herramientas

Un artículo de arXiv del 16 de junio de 2026 propone 'transacciones semánticas': un runtime que retiene los efectos irreversibles de un agente y valida todo el flujo de la tarea antes de confirmar.

2026-06-19//6 min

AuthGraph: alineación de doble grafo contra la inyección en agentes

Un artículo de UCLA del 26 de mayo de 2026 compara un grafo de autorización limpio con el grafo de procedencia real del agente, reduciendo el éxito de ataque del 40 % al 1 % en AgentDojo.

2026-06-19//6 min

SkillVetBench: un LLM-juez que ve lo que los escáneres de skills pasan por alto

Un artículo de arXiv del 14 de junio de 2026 muestra que los escáneres de skills a nivel de código omiten entre el 89 % y el 100 % de las amenazas a nivel de instrucción, mientras un LLM-juez detecta las 78 skills maliciosas de prueba sin ningún falso positivo.

2026-06-18//7 min

SafeMCP: filtrar la adquisición de herramientas para frenar la búsqueda de poder en agentes MCP

Un artículo de arXiv del 1 de junio de 2026 (ACL 2026) propone SafeMCP, un plugin del lado del servidor que usa razonamiento anticipatorio con un modelo del mundo para filtrar la adquisición de herramientas peligrosas antes de que un agente MCP amplíe sus poderes.

2026-06-18//6 min

La tríada letal ya es la norma: defienda a los agentes en tiempo de ejecución

La tríada letal antes señalaba agentes de riesgo. A mediados de 2026 describe a todo agente útil, así que evitarla por arquitectura ya no basta. La defensa se traslada a cinco señales de comportamiento en ejecución.

2026-06-18//6 min

DoubtProbe: detectar jailbreaks que reorganizan la intención

Un artículo de junio de 2026 propone una defensa en tiempo de inferencia que trata la detección de jailbreaks como una comprobación de coherencia: reconstruir la petición bajo restricciones estructurales y señalar los prompts cuyo significado no sobrevive a la ida y vuelta.

2026-06-18//6 min

Detectar ataques en el tráfico de llamadas a herramientas: gana el contenido

Un estudio de arXiv de mayo de 2026 sobre la supervisión de llamadas a herramientas MCP halla que los embeddings de contenido impulsan la detección (AUROC > 0,89), que la estructura de grafo aporta poco y que los splits aleatorios inflan los resultados hasta 26 puntos.

2026-06-17//6 min

RUBAS: una señal de recompensa fina para la seguridad de agentes mediante RL con rúbricas

Un artículo de junio de 2026 sustituye la recompensa binaria rechazar/ejecutar por cuatro rúbricas puntuadas — uso de herramientas, argumentos, respuesta y utilidad — para entrenar agentes que se mantienen seguros sin perder utilidad.

2026-06-17//5 min

SkillGuard: un marco de permisos para lo que una skill de agente puede hacer en ejecución

Un artículo de junio de 2026 cierra la brecha entre lo que una skill inyecta en el contexto de un agente y lo que le hace hacer, mediante manifiestos, control de acceso deny-by-default y monitorización en ejecución.

2026-06-17//6 min

Backdoors señuelo: eliminar backdoors LLM desconocidas mediante mecanismos internos compartidos

Un artículo de junio de 2026 elimina backdoors invisibles plantando una visible: distintas backdoors comparten patrones de activación internos, así que borrar un «señuelo» controlado debilita también la desconocida.

2026-06-17//6 min

Las defensas por procedencia de la memoria-grafo de los agentes son ciegas por construcción

Un artículo de arXiv fechado el 10 de junio de 2026 muestra que los controles de procedencia sobre la memoria-grafo de los LLM se eluden sin falsificar ninguna fuente: una escritura de estructura no confiable cambia qué hechos autenticados se seleccionan, y el control de flujo de información nunca lo ve.

La privacidad de un agente es un problema de trayectoria: OCELOT presupuesta la fuga por inferencia en tiempo de ejecución

Un artículo de arXiv fechado el 10 de junio de 2026 replantea la privacidad de los agentes LLM como control de riesgo a posteriori: no filtrar cada salida, sino presupuestar cuánto puede mejorar la creencia de un adversario sobre un secreto a lo largo de toda una trayectoria.

Skills de agente verificados: gobernanza de capacidades para la cadena SKILL.md

Los skills de agente verificados de NVIDIA (19 de mayo de 2026) añaden escaneo de riesgos, firma criptográfica y tarjetas de skill legibles por máquina a la cadena SKILL.md — una respuesta defensiva a los skills envenenados.

Parallax: poner la seguridad de los agentes en la arquitectura, no en el prompt

Un position paper publicado el 14 de abril de 2026 sostiene que las salvaguardas a nivel de prompt se derrumban en cuanto se compromete el razonamiento de un agente, y propone separar estructuralmente lo que piensa de lo que actúa.

2026-06-16//8 min

Arquitecturar agentes seguros: una defensa de «plan y política» contra la inyección de prompts

Un position paper de NVIDIA (31 de marzo de 2026) sostiene que la inyección indirecta de prompts no se resuelve solo en el modelo — y propone una arquitectura de «plan y política» que limita lo que un agente puede observar y decidir.

Por qué fallan los detectores de inyección de prompts: el problema de la evasión en 2026

De los clasificadores por palabras clave a las sondas de deriva de activación, los detectores de inyección de prompts comparten una debilidad: el adversario adaptativo. Dos estudios reportan hasta ~100 % de evasión. La detección es una capa, nunca la frontera.

2026-06-15//7 min

Confidential Computing para IA agéntica: lo que los enclaves no protegen

Un estudio de mayo de 2026 proyecta el confidential computing sobre la pila agéntica: los enclaves de hardware protegen la memoria y la caché KV frente a un operador cloud malicioso, pero no detienen la prompt injection.

Por qué los jailbreaks se transfieren entre modelos — y cómo el «salado» contraataca

Un estudio sobre 20 modelos open-weight muestra que la transferencia de jailbreaks surge de las representaciones internas compartidas, no de un fallo del alineamiento. Una defensa llamada LLM salting rota la dirección de rechazo para romper la reutilización.

SafeHarbor: una barrera de memoria jerárquica que ataca el sobre-rechazo de los agentes

Aceptado en ICML 2026, SafeHarbor es una barrera sin reentrenamiento que inyecta reglas de seguridad contextuales desde un árbol de riesgos autoevolutivo — 63,6 % de utilidad benigna en GPT-4o rechazando más del 93 % de los ataques.

La inyección de prompts no está resuelta: conténgala a velocidad de máquina

En Infosecurity Europe 2026, Ariel Fogel (OWASP) calificó la inyección de prompts como un problema arquitectónico sin resolver y defendió pasar de la prevención a la contención en ejecución, tan rápida como el agente.

SecureClaw: una defensa de doble frontera para agentes LLM con herramientas

Un artículo de junio de 2026 propone proteger dos fronteras distintas a la vez —autorizar las acciones externas en el punto de efecto y confinar el texto plano en la frontera de lectura— con un 0 % de éxito de ataque en un benchmark de agentes.

2026-06-14//6 min

PI-Hunter: auditar agentes para exponer y localizar inyecciones de prompt ocultas

Un artículo de junio de 2026 de investigadores de Google replantea el red-teaming de inyección de prompts como auditoría: PI-Hunter hace evolucionar casos de prueba anclados en la fuente para revelar dónde entra y se propaga una inyección latente en un agente, no solo si el ataque tiene éxito.

2026-06-13//6 min

Inyección por flujo de herramientas: por qué fallan las defensas estáticas de agentes y qué corrige el verify-before-commit

Un artículo de enero de 2026, VIGIL, replantea la inyección indirecta en torno al flujo de herramientas — descripciones falsificadas y mensajes de error falsos — y muestra que cuanto mejor alineado está un agente, más les obedece.

2026-06-12//7 min

Dentro de GitHub Agentic Workflows: una arquitectura de seguridad para agentes de CI/CD

GitHub Agentic Workflows llegó a versión preliminar pública el 11 de junio de 2026 con un diseño centrado en la seguridad: agentes sin secretos en una jaula chroot, un cortafuegos de workflow, escrituras en cola y verificadas, y un trabajo de detección de amenazas. La respuesta defensiva a la inyección de prompts en CI/CD.

2026-06-12//8 min

TRUSTDESC: derivar las descripciones de herramientas del código para desactivar el tool poisoning

Un artículo de abril de 2026 ataca el tool poisoning de raíz: generar la descripción de una herramienta a partir de su implementación en lugar de confiar en el texto del autor, neutralizando el envenenamiento implícito que los detectores no ven.

2026-06-12//6 min

La Recuse Signal: un robots.txt para agentes que poseen credenciales reales

Un artículo de junio de 2026 propone una señal de «denegación» in-band — emitida por un banner SSH o un NOTICE de PostgreSQL — que pide cortésmente a un agente autónomo que se retire. En un piloto indujo un 100 % de recusación, pero un encuadre de autorización hizo volver al modelo más capaz.

2026-06-12//6 min

El trilema de la defensa: por qué los wrappers anti-inyección no pueden ser completos

Una prueba verificada en Lean 4 (abril de 2026) demuestra que ningún wrapper de entrada continuo que preserve la utilidad puede bloquear toda inyección de prompts. Continuidad, utilidad y completitud no coexisten.

2026-06-12//7 min

AgentDyn: por qué las defensas anti-inyección que brillan en benchmarks fallan en el mundo real

AgentDyn, un benchmark de ICML de febrero de 2026, prueba diez defensas anti-inyección de primer nivel en tareas de agente dinámicas y abiertas. Casi todas son inseguras o sobredefienden hasta volverse inservibles.

2026-06-12//7 min

La supervisión tiene una capacidad: cuando más aprobaciones hacen al agente menos seguro

Un artículo de arXiv del 8 de junio de 2026 modela al revisor humano detrás de la puerta de aprobación de un agente como un recurso finito que se fatiga, y muestra que escalar más acciones puede reducir la seguridad real y abrir un ataque por saturación.

2026-06-11//8 min

CASA: control de acceso basado en tareas que contrasta cada llamada a una herramienta con la intención real del usuario

Un artículo de arXiv del 4 de mayo de 2026 propone Continuous Agent Semantic Authorization: una capa zero-trust que extrae la tarea del usuario de una conversación multironda y deniega las llamadas a herramientas que no encajan.

2026-06-11//6 min

ADR: detección y respuesta para agentes MCP, probado a escala de Uber

Un artículo de mayo de 2026 de Uber describe un sistema tipo EDR para agentes MCP: telemetría causal completa, detección en dos niveles y red teaming offline, desplegado en más de 7.200 hosts durante diez meses.

2026-06-08//7 min

ePCA: sustituir las barreras semánticas de agentes por verificación formal

Un artículo de mayo de 2026 propone ePCA, una barrera que compila cada acción del agente en lógica de primer orden y ejecuta una verificación SMT antes de actuar, bloqueando los pasos peligrosos como bloqueos lógicos.

2026-06-08//7 min

AgentTrust: revisar las llamadas a herramientas de un agente antes de ejecutarlas

Un preprint del 6 de mayo de 2026 presenta AgentTrust, una capa de ejecución que inspecciona cada llamada a herramienta antes de que se ejecute y devuelve permitir / advertir / bloquear / revisar, incluso sobre cargas de shell ofuscadas.

2026-06-08//6 min

Detectar la extracción de modelos observando la ventana de tráfico, no las consultas aisladas

Un artículo de junio de 2026 muestra que una simple prueba de distribución (MMD sobre embeddings de consultas, calibrada solo con tráfico legítimo) detecta campañas de extracción ocultas en tráfico de API mixto — 0,3 % de falsos positivos, 100 % en tráfico puramente atacante.

2026-06-08//6 min

La seguridad de los agentes es un problema de sistema: tratar al modelo como no confiable

Un position paper de mayo de 2026 (Google, UCSD, UW–Madison) sostiene que la seguridad de los agentes debe salir del modelo y trasladarse al sistema: tratar al LLM como un componente no confiable e imponer las invariantes a su alrededor.

2026-06-08//8 min

Need to Know: reescritura de consultas por integridad contextual

Un artículo de arXiv del 2 de junio de 2026 replantea la reescritura de consultas respetuosa con la privacidad como un problema de integridad contextual: enviar un dato al LLM en la nube solo si la tarea lo necesita, no porque se haya reconocido un tipo de PII.

Membrane: una memoria de seguridad contrastiva que adapta las barreras sin reentrenar

Un artículo de arXiv del 4 de junio de 2026 propone Membrane, una barrera autoevolutiva que asocia cada ataque bloqueado con una petición benigna casi idéntica, reduciendo el rechazo excesivo al 7-14 % y liderando el F1 en seis jailbreaks.

Lockdown Mode de OpenAI: cortar la vía de exfiltración del prompt injection

El 6 de junio de 2026 OpenAI amplió Lockdown Mode a las cuentas personales y Business de autoservicio de ChatGPT: un ajuste determinista que desactiva los canales de salida usados para exfiltrar datos mediante prompt injection.

THRD: una defensa temporal sin reentrenamiento contra jailbreaks multironda

Un artículo de junio de 2026 sostiene que un jailbreak multironda debe evaluarse sobre toda la conversación, no turno a turno. THRD agrega el riesgo en el tiempo y reduce la tasa de éxito de los ataques al 0,2–4 %, sin reentrenamiento.

2026-06-07//7 min

Dos trampas metodológicas que inflan las puntuaciones de los detectores de inyección de prompts

Un preprint de arXiv del 1 de junio de 2026 muestra que la mayoría de los benchmarks de detectores de inyección de prompts y jailbreak se apoyan en el ajuste de umbral por conjunto de datos y en puntos de operación no divulgados — dos hábitos que inflan discretamente la precisión anunciada.

AgentVisor: un patrón tipo hipervisor de SO que audita cada llamada a herramienta

Un artículo de arXiv del 27 de abril de 2026 toma la idea del hipervisor de SO para defender agentes LLM con herramientas: un «visor» de confianza audita cada llamada y es arquitectónicamente ciego al contenido no confiable.

2026-06-07//8 min

Taxonomía v2.0 de modos de fallo agénticos de Microsoft: la evasión zero-click del humano en el bucle

La taxonomía v2.0 del AI Red Team de Microsoft (4 de junio de 2026) añade siete modos de fallo agénticos y señala la evasión del humano en el bucle como la más explotada — incluidas cadenas zero-click a partir de una sola entrada externa.

2026-06-07//8 min

El agente que escribe sus propios registros: por qué no se puede confiar en los audit trails autoinformados

Si un agente comprometido genera su propio registro de actividad, puede omitir, alterar o fabricar lo que hizo. Tres trabajos de junio de 2026 — Notarized Agents (arXiv), un borrador del IETF sobre audit trail de agentes y SCITT — convergen en la misma solución: mover la frontera de confianza fuera del agente.

2026-06-05//6 min

Cuando fallan las defensas por embedding en sistemas multiagente LLM

Un artículo de arXiv del 1 de mayo de 2026 demuestra que los detectores que descartan un agente malicioso por el embedding de sus mensajes se desploman ante un texto vuelto casi benigno — y propone las señales de confianza por token como reemplazo más robusto.

2026-06-05//6 min

PISmith: el red teaming con RL adaptativo sigue rompiendo las defensas anti-inyección

Un artículo de marzo de 2026 entrena un modelo atacante con aprendizaje por refuerzo para poner a prueba las defensas anti-inyección en caja negra — y 8 defensas de última generación caen, incluso en AgentDojo e InjecAgent.

2026-06-04//6 min

La recuperación híbrida BM25 + vectores redujo el envenenamiento RAG del 38 % al 0 %

Un preprint de arXiv del 10 de marzo de 2026 muestra que añadir BM25 disperso a la recuperación densa bloquea toda una clase de envenenamiento de corpus RAG optimizado por gradiente, sin tocar el LLM.

2026-06-04//7 min

AgentShield: detectar agentes comprometidos con honeytokens y herramientas señuelo

Un artículo de mayo de 2026 aplica la ingeniería del engaño a los agentes LLM con herramientas: herramientas falsas, credenciales falsas y listas blancas de parámetros con las que tropieza un agente secuestrado. Reporta una detección del 90,7 al 100 % de los ataques exitosos, sin falsas alarmas.

2026-06-04//6 min

OWASP Agent Memory Guard: una capa en tiempo de ejecución contra el envenenamiento de memoria de agentes

Cubierto por Help Net Security el 1 de junio de 2026, Agent Memory Guard es la primera implementación de referencia de OWASP para ASI06: una capa lista para usar que filtra cada lectura y escritura de la memoria de un agente según una política YAML.

2026-06-04//7 min

Detectar la exfiltración de credenciales en agentes LLM antes del token de salida

Publicado el 2 de junio de 2026, un artículo de arXiv detecta las fugas de credenciales de un agente antes de cualquier token de salida, combinando sondas de activación, honeytokens calibrados y contabilidad de fuga multironda.

2026-06-04//7 min

Agent Threat Rules: un «Sigma para agentes de IA» — y lo que confiesan sus cifras de recall

ATR ofrece reglas de detección YAML abiertas para ataques a agentes, ya en producción en Microsoft, Cisco y Gen Digital. Sus propios benchmarks muestran por qué la detección por regex es una capa, no un perímetro.

2026-06-03//6 min

SnapGuard: detectar la inyección en lo que el agente ve, no en lo que parsea

Un artículo de abril de 2026 propone un detector ligero para agentes web basados en capturas de pantalla, donde las defensas textuales son ciegas. Lee los píxeles renderizados — estabilidad de gradientes y texto con polaridad invertida — en 1,81 s por página.

2026-06-03//6 min

DataShield: cuando un fine-tuning inocuo erosiona la seguridad de un modelo

Un artículo de arXiv del 29 de mayo de 2026 muestra que ajustar un LLM alineado con datos inofensivos degrada igualmente su seguridad, y propone DataShield para detectar las muestras responsables antes del entrenamiento.

2026-06-03//6 min

Deje de evaluar las defensas anti-jailbreak solo por la tasa de éxito

Un artículo de IEEE S&P de mayo de 2026 sostiene que la tasa de éxito de ataque —la métrica por defecto del campo— oculta cómo se comportan realmente las defensas anti-jailbreak. Su Security Cube las evalúa en varios ejes a la vez.

2026-06-02//6 min

Separadores dinámicos: reforzar Polymorphic Prompt Assembling frente a la inyección

Un artículo de arXiv del 28 de mayo de 2026 corrige un fallo de «radio de impacto» en Polymorphic Prompt Assembling generando un separador SHA-256 único por petición, bajando la tasa de éxito de un payload de 0,88 a 0,38.

2026-06-02//6 min

El triángulo de compromisos: defensas contra inyección de prompts en tutores LLM

Un benchmark de mayo de 2026 sobre defensas anti-inyección para tutores educativos LLM cuantifica una verdad incómoda: ningún guardarraíl gana a la vez en robustez, usabilidad y latencia.

2026-06-01//7 min

Los jailbreaks dejan rastro: detectarlos en las activaciones internas del LLM

Un artículo de febrero de 2026 y su continuación de marzo de 2026 muestran que un prompt de jailbreak graba una firma distintiva en las activaciones ocultas del modelo, lo que permite detectarlo en inferencia sin fine-tuning ni un modelo juez auxiliar.

2026-06-01//6 min

Atribución causal: una defensa emergente contra la inyección indirecta

Un grupo de papers de inicios de 2026 — CausalArmor y AttriGuard — defiende a los agentes con herramientas preguntando qué acciones están causadas por contenido no confiable y no por el usuario. Repaso de la defensa por atribución causal.

2026-06-01//7 min

Un millón de servicios de IA expuestos: lo que el escaneo de Intruder encontró realmente

El 5 de mayo de 2026, Intruder publicó los resultados de un escaneo de internet que mapeó un millón de servicios de IA expuestos en dos millones de hosts. El fallo recurrente no es exótico: son las configuraciones por defecto permisivas.

2026-05-29//8 min

MCP necesita un apretón de manos de confianza: admisión atestiguada de servidores de herramientas

Un paper de arXiv del 22 de mayo de 2026 propone mcp-attested — una extensión retrocompatible de MCP que condiciona todo despacho de herramientas a una aserción firmada, una allowlist deny-by-default y un registro de auditoría a prueba de manipulaciones.

2026-05-29//7 min

WARD: un modelo guardián co-evolucionado que resiste inyecciones de prompt adaptativas en agentes web

Un artículo de la NUS del 14 de mayo de 2026 propone WARD —un modelo guardián entrenado contra un atacante adversarial con memoria— y reporta recall casi perfecto fuera de distribución frente a inyecciones de prompt en agentes web.

2026-05-29//8 min

Project Glasswing: Claude Mythos halla más de 10 000 bugs críticos en un mes

La actualización publicada por Anthropic el 26 de mayo de 2026 indica que cerca de 50 socios de Project Glasswing han usado Claude Mythos Preview para identificar más de 10 000 vulnerabilidades de severidad alta o crítica, incluidas 271 fallas latentes parcheadas en Firefox 150.

2026-05-26//8 min

Agents Rule of Two: la respuesta pragmática de Meta al prompt injection

Publicada el 31 de octubre de 2025 por Meta y retomada en la guía de Databricks de mayo de 2026, la Agents Rule of Two limita cada sesión de agente a dos de tres propiedades de riesgo — el marco más accionable mientras el prompt injection siga sin solución.

2026-05-25//7 min

ARGUS: una defensa por grafo de procedencia contra la inyección de prompts contextual

Publicado el 5 de mayo de 2026, el paper ARGUS introduce la auditoría por grafo de influencia para agentes LLM — la tasa de éxito de ataque cae del 28,8 % al 3,8 % en un nuevo benchmark.

2026-05-22//8 min

Jerarquía de instrucciones: entrenar a los LLM para priorizar órdenes privilegiadas

El artículo de OpenAI de 2024 propone una defensa estructural frente a la inyección de prompt: enseñar al modelo que sistema > usuario > salida de herramienta. La idea ya es central en el entrenamiento de GPT-4o-mini y la serie o.

2026-05-22//8 min