DEFENSE LOW NEW

Les jailbreaks laissent une trace : les détecter dans les activations internes des LLM

Un article de février 2026 et son prolongement de mars 2026 montrent qu'un prompt de jailbreak grave une signature distinctive dans les activations cachées du modèle — permettant une détection à l'inférence, sans fine-tuning ni modèle juge auxiliaire.

2026-06-01 // 6 min affects: llama-3.1-8b, mistral, gpt-j, mamba2

Qu’est-ce que c’est ?

La plupart des défenses contre les jailbreaks regardent le texte : classifieurs d’entrée, filtres de sortie, règles de hiérarchie d’instructions. Un courant de recherche de 2026 soutient que le signal le plus fiable se situe un cran plus bas — dans les activations cachées du modèle. La thèse est qu’un prompt de jailbreak, quel que soit son habillage en surface, laisse une trace cohérente dans l’espace latent à mesure qu’il traverse les couches du transformeur, et que cette trace peut être lue directement pour signaler l’attaque.

Deux articles récents ancrent cette idée. Jailbreaking Leaves a Trace (Sri Durga Sai Sowmya Kadali et Evangelos E. Papalexakis, UC Riverside ; arXiv 2602.11495, février 2026) mène une analyse couche par couche des représentations internes sur GPT-J, LLaMA, Mistral et le modèle à espace d’états Mamba2, et identifie des motifs reproductibles séparant les entrées adverses des entrées bénignes. GUARD-SLM (Md Jueal Mia et ses collègues, FIU ; arXiv 2603.28817, 28 mars 2026) rapporte le même effet sur 7 petits modèles de langage et 3 grands, à travers 9 familles d’attaques. Les deux prolongent un travail précurseur d’octobre 2025 du groupe d’UC Riverside, Do Internal Layers of LLMs Reveal Patterns for Jailbreak Detection?.

Comment ça marche

La défense est observationnelle, pas générative : il n’y a donc aucun payload à caviarder. Le pipeline lit le flux résiduel que le modèle produit déjà :

Étape                        Ce qui se passe
---------------------------  --------------------------------------------------
1. Capturer les états cachés Pour chaque prompt, collecter les représentations
                             cachées par couche durant la passe avant
2. Projeter en espace latent Réduire / décomposer les activations (les travaux
                             d'UCR utilisent une décomposition tensorielle)
3. Scorer par couche         Un classifieur léger estime une "susceptibilité au
                             jailbreak" par couche à partir de la projection
4. Décider / intervenir      Signaler la requête, ou contourner les couches/têtes
                             les plus susceptibles à l'inférence

Deux propriétés rendent l’approche attrayante. D’abord, elle ne nécessite ni fine-tuning ni second LLM faisant office de juge — le détecteur est un petit classifieur sur des activations que le modèle émet de toute façon, d’où un surcoût d’exécution minime. Ensuite, elle est agnostique à l’architecture : la même méthode enregistre un signal sur un transformeur dense (LLaMA, Mistral) comme sur un modèle à espace d’états (Mamba2), ce qui suggère que la trace tient à la façon dont les modèles alignés traitent l’intention adverse, plutôt qu’à une particularité d’un design.

Le groupe d’UCR a aussi testé une variante active. Sur un LLaMA 3.1 8B abliterated — un modèle dont la direction de refus a été chirurgicalement retirée — contourner sélectivement les couches scorées comme les plus susceptibles a bloqué 78 % des tentatives de jailbreak tout en préservant le comportement bénin sur 94 % des prompts bénins, entièrement à l’inférence.

Pourquoi c’est important

Les défenses au niveau du prompt mènent une course perdue contre la paraphrase : l’attaquant reformule jusqu’à passer le filtre. Si le signal discriminant réside plutôt dans les activations, l’attaquant doit modifier non seulement la formulation mais le calcul interne que le modèle effectue sur la requête — une cible sensiblement plus difficile. Que l’effet tienne sur un modèle abliterated est notable, car cela implique qu’une trace exploitable existe même quand la machinerie de refus standard a été retirée.

Le cadrage honnête est qu’il s’agit d’une recherche précoce et complémentaire, pas d’un contrôle résolu. Les chiffres élevés proviennent de modèles à poids ouverts où les activations sont directement accessibles ; vous ne pouvez pas exécuter cela sur une API fermée que vous n’atteignez que par le réseau. Un taux de blocage de 78 % signifie aussi qu’environ une attaque sur cinq aboutit encore : c’est une couche, pas un mur.

Défenses

Pour les équipes qui hébergent elles-mêmes des modèles à poids ouverts, c’est un ajout concret à la pile :

Instrumentez le flux résiduel. Si vous servez des modèles à poids ouverts, vous disposez déjà des états cachés. Ajoutez une sonde d’activation légère comme signal de détection alimentant votre journalisation et votre limitation de débit existantes, plutôt qu’une nouvelle barrière bloquante dès le premier jour.
Utilisez-la en défense en profondeur, pas en remplacement. Conservez le filtrage entrée/sortie et une hiérarchie d’instructions ; la détection par représentation couvre les attaques par paraphrase qui passent les filtres textuels, pas les cas que ces filtres attrapent déjà.
Surveillez le budget de faux positifs. 94 % de préservation des prompts bénins sur un jeu de recherche, ce n’est pas 99,9 % en production. Ajustez les seuils de susceptibilité sur votre propre trafic bénin avant de laisser la sonde refuser des requêtes.
Recalibrez après chaque fine-tune. La trace latente est propre au modèle. Un nouveau fine-tune, un adaptateur LoRA ou une quantification peut déplacer les couches qui portent le signal — réentraînez la sonde quand vous changez les poids.
Utilisateurs de modèles fermés : traitez ceci comme une demande au fournisseur. Vous ne pouvez pas lire vous-même les activations d’une API — poussez les fournisseurs à exposer une télémétrie de signal de sûreté, et appuyez-vous sur les contrôles de sortie en attendant.

Statut

Élément	Référence	Date	Notes
Précurseur : motifs par couche interne	arXiv 2510.06594 (UC Riverside)	2025-10	GPT-J, Mamba2 ; comportement distinct par couche
Jailbreaking Leaves a Trace	arXiv 2602.11495 (UC Riverside)	2026-02	Cadre latent tensoriel ; 78 % bloqués / 94 % bénins sur LLaMA 3.1 8B abliterated
GUARD-SLM	arXiv 2603.28817 (FIU)	2026-03-28	9 attaques × 7 SLM + 3 LLM ; défense par activation, sans réentraînement

L’essentiel est un déplacement du regard du défenseur. La recherche sur les jailbreaks a passé deux ans sur le prompt ; ces travaux affirment que la preuve la plus durable d’une attaque se trouve dans les activations que le prompt produit — et sur des modèles à poids ouverts, vous pouvez la lire presque gratuitement.