ADVERSARIAL MEDIUM NEW

Rapid Poison: cuando una defensa anti-jailbreak se vuelve superficie de ataque

Un artículo de arXiv del 15 de junio de 2026 muestra que el paso de proliferación de las defensas Rapid Response puede envenenarse a una tasa del 1 %, forzando hasta un 100 % de falsos positivos o un 96 % de falsos negativos en el clasificador.

2026-06-19 // 8 min affects: llama-guard-4, prompt-guard-2, safety-classifiers, rapid-response-pipelines

¿Qué es esto?

El 15 de junio de 2026, David Huang, Jaewon Chang, Avidan Shah, Prateek Mittal y Chawin Sitawarin publicaron «Rapid Poison: Practical Poisoning Attacks Against the Rapid Response Framework» (arXiv:2606.16242, cs.LG). No es un nuevo jailbreak, sino un ataque contra la defensa que se supone debe detener los jailbreaks.

El objetivo es Rapid Response (RR), presentado por Peng et al. en noviembre de 2024. RR es una defensa adaptativa: cuando un jailbreak novedoso supera un clasificador de guardia, el ataque se detecta a posteriori, un modelo de «proliferación» independiente lo parafrasea en varias variantes sintéticas, y el clasificador se reentrena con esas variantes para generalizar a toda la familia de ataques. El artículo original informaba de que su mejor variante reducía la tasa de éxito de los ataques en distribución en un factor superior a 240. Esta proliferación se utilizaría en las salvaguardas de despliegue ASL-3 de Anthropic (mayo de 2025), con variantes agénticas similares propuestas por OpenAI. El nuevo artículo plantea una pregunta sencilla: ¿qué ocurre si el atacante alimenta ese bucle?

Cómo funciona

La idea clave es que la proliferación es un arma de doble filo: sobremuestrea unos pocos jailbreaks reales y escasos hasta convertirlos en muchas muestras de entrenamiento, lo que también amplifica la influencia de un atacante sobre el conjunto de entrenamiento. Los autores adoptan un modelo de amenaza deliberadamente restringido: el adversario solo puede modificar las muestras de jailbreak (clase positiva), nunca los datos benignos ni las etiquetas. La referencia envenenada debe seguir percibiéndose como realmente dañina, o el propio juez del defensor la rechazaría antes de la proliferación.

Para satisfacer ambas restricciones, el ataque emplea una inyección de prompt condicional que se comporta de una forma cuando el modelo de proliferación genera «ejemplos similares» y de otra cuando el defensor valida que la referencia es un jailbreak real. El disparador se basa en señales propias de la tarea de proliferación, que el artículo considera imposibles de eliminar sin cambiar la forma en que funciona la generación de datos sintéticos. Aquí no se reproduce ningún payload ni plantilla; esto es un resumen de un método publicado.

Esa entrega habilita dos objetivos:

Objetivo             Fallo inducido         Mecanismo (conceptual)
-------------------  ---------------------  ------------------------------------------
Envenenamiento       Falsos positivos       entradas benignas con un rasgo elegido
dirigido             (daño a la utilidad)   (un formato, un tema, un nombre de marca)
                                            se inyectan como «unsafe» -> el clasificador
                                            aprende un atajo espurio «rasgo => unsafe»
Backdoor por         Falsos negativos       «Omission Attack»: se elimina un concepto de
concepto             (elusión de la         las muestras unsafe, así el modelo aprende la
                     seguridad)             PRESENCIA del concepto como señal «safe» ->
                                            añadirlo a un jailbreak invierte su
                                            clasificación

El Omission Attack es el aporte novedoso: como el concepto elegido solo aparece en los datos seguros y nunca en los datos envenenados (estructuralmente similares), el clasificador asocia erróneamente su presencia con la etiqueta «safe».

Por qué importa

Las cifras reportadas son llamativas dado el acceso necesario. Con una tasa de envenenamiento del 1 % —unas 18 referencias envenenadas en un conjunto de 6.000 muestras— los ataques alcanzan hasta un 100 % de falsos positivos y hasta un 96 % de falsos negativos. El envenenamiento dirigido a un formato llegó al 100 % de falsos positivos en entradas de opción múltiple y JSON; el dirigido a una entidad marcó ~95–98 % de las consultas benignas que mencionaban un producto concreto, dejando en gran medida intactas las entidades vecinas; los backdoors por concepto alcanzaron un 96 % de falsos negativos en consultas dañinas, y se transfirieron a disparadores nunca vistos en el entrenamiento. Las pruebas usaron Llama Guard 4 (12B) y Prompt Guard 2 (86M) como víctimas, con Gemini 2.5/3 como modelo de proliferación (los autores señalan que GPT y Claude rechazan la tarea de proliferación).

La lección de fondo es incómoda: una defensa eficiente en datos pero que aprende de datos reales no controlados hereda los problemas de confianza de esos datos. Los autores plantean un trilema — RR no puede ofrecer a la vez adaptación rápida, generalización que preserve la utilidad y robustez frente a la manipulación de los datos de entrenamiento.

Defensas

El artículo evalúa dos mitigaciones y reconoce que ninguna es una solución completa.

Inspeccionar las referencias antes de la proliferación. Un LLM de guardia que filtre las referencias entrantes (un filtro tipo PromptArmor) interceptó muchas, pero no todas —alrededor de un 10 % de falsos negativos agregados sobre las referencias envenenadas, y menos en las plantillas más difíciles. Las referencias limpias y las envenenadas se parecen, lo que dificulta el calibrado. Considérelo defensa en profundidad, no una barrera.
Usar un modelo de proliferación resistente a la inyección. Sustituir el modelo por uno endurecido frente a la inyección (Meta SecAlign 70B) redujo la tasa de falsos positivos dirigida del 98 % al 0 % frente a la plantilla estática del artículo. Los autores advierten que es una cota inferior: un atacante adaptativo lo haría bastante mejor.
Tratar el pipeline de seguridad como atacable. La conclusión estructural es que los bucles basados en proliferación deben endurecerse antes de su despliegue. Separe los dominios de confianza entre «datos que se convierten en etiquetas de entrenamiento» y «datos enviados por terceros no fiables», limite la amplificación de cualquier referencia individual y vigile los cambios bruscos de distribución en lo que el clasificador marca.
Detectar las firmas del fallo. Un repunte de rechazos de consultas benignas asociado a un formato, tema o entidad concretos —o una caída discreta de la detección en presencia de un concepto inusual— es coherente con esta clase de envenenamiento y merece una alerta.

Estado

Elemento	Detalle
Artículo	arXiv:2606.16242, publicado el 2026-06-15
Defensa atacada	Pipeline de proliferación Rapid Response (Peng et al., 2024)
Modelo de amenaza	El atacante solo modifica jailbreaks; sin control de etiquetas ni de datos benignos
Tasa de envenenamiento	~1 % del conjunto de entrenamiento (≈18 referencias)
Impacto reportado	Hasta 100 % de falsos positivos; hasta 96 % de falsos negativos
Clasificadores probados	Llama Guard 4 (12B), Prompt Guard 2 (86M)
Divulgación	Los autores afirman haber avisado a las partes potencialmente afectadas y haber omitido cualquier receta operativa

El punto no es que Rapid Response esté «roto». Es que una defensa que se entrena con datos reales no controlados es ella misma un objetivo — y que cualquier mecanismo de seguridad adaptativo debería someterse a red team como una superficie de ataque antes de desplegarse, no después.