JAILBREAK
(12)12 hack(s).
Jailbreak par cadrage CTF : le prompt fuite dans l'attaque
Sysdig (15 juin 2026) a observé des opérateurs jailbreakant leur propre assistant de code en déguisant leurs demandes d'exploit en CTF ou chasse aux CVE — et ce cadrage fuit dans les User-Agents, mots de passe et journaux IAM, laissant une empreinte précieuse pour les défenseurs.
Surcharge cognitive : comment une faible résolution d'image jailbreake les LLM multimodaux
Un papier de mai 2026 (Findings of ACL 2026) montre que réduire la résolution d'un texte rendu sous forme d'image fait basculer les MLLM de pointe dans une « zone de confort d'attaque » où l'alignement de sécurité s'effondre alors que l'OCR reste fiable.
Jailbreak par RL : la récompense et la durée d'épisode font l'attaque
Une étude de juin 2026 décompose le jailbreak par apprentissage par renforcement et montre que la conception de l'environnement — récompense dense et longs épisodes — pèse plus que l'algorithme.
UniAttack : un jailbreak automatisé qui vise les défenses LLM en couches
Un preprint de juin 2026 construit un framework de red teaming automatisé combinant plusieurs stratégies et le lance contre des modèles aux défenses empilées — montrant qu'empiler des garde-fous ne garantit pas la robustesse.
Les jailbreaks adaptatifs continuent de percer les défenses LLM : le vrai problème, c'est l'évaluation
Un framework de juin 2026, UniAttack, compose des « caractéristiques » d'attaque réutilisables en jailbreaks one-shot qui se transfèrent d'un modèle et d'une défense à l'autre — preuve qu'une défense testée seulement contre des attaques statiques offre une fausse assurance.
IICL : la complétion de motif bat l'alignement avec 10 exemples
Un papier arXiv d'avril 2026 retourne l'apprentissage en contexte contre le modèle : une dizaine d'exemples à base d'opérateurs abstraits font compléter à GPT-5.4 un motif nuisible que ses filtres de contenu ne détectent jamais.
Para-jailbreaking : quand la « safe completion » fuit le danger dans l'alternative
Un papier arXiv du 27 avril 2026 nomme un nouveau mode de défaillance de la sûreté centrée sur la sortie : le modèle refuse correctement la question directe, mais laisse fuir du contenu nuisible dans l'« alternative sûre » qu'il propose à la place.
Jailbreak vidéo multi-clips : pourquoi la vidéo casse la sûreté des LLM multimodaux
Un papier ACL de juin 2026 montre que le canal vidéo est une frontière de sûreté plus faible que l'image : le taux de réussite grimpe quand la vidéo est découpée en clips variés.
CodeSpear : quand le décodage sous contrainte grammaticale devient une surface de jailbreak
Un papier arXiv du 10 juin 2026 montre que la fonctionnalité de fiabilité qui force la sortie de code d'un LLM à être syntaxiquement valide peut elle-même servir de jailbreak. Appliquer une grammaire de code anodine contourne les refus ; la défense CodeShield des auteurs répond par du code leurre.
Sockpuppeting : un préfixe d'une ligne qui jailbreak 11 LLM en production
Une seule ligne injectée comme dernier message « assistant » incite 7 modèles majeurs sur 10 à générer du contenu nuisible. Le correctif n'est pas dans le modèle — c'est une validation d'ordre des messages côté API.
Jailbreaks par encodage mathématique : quand la théorie des ensembles contourne l'alignement
Un papier arXiv publié le 5 mai 2026 montre que reformuler une requête nuisible en problème de théorie des ensembles ou de logique formelle contourne l'alignement de 46 à 56 % du temps sur huit modèles de pointe — mais seulement si un LLM auxiliaire fait la reformulation.
Many-shot jailbreaking : 256 exemples pour contourner n'importe quel alignement
Les chercheurs d'Anthropic ont montré qu'en remplissant la fenêtre de contexte avec 256 faux exemples de Q&R, on contourne l'entraînement de sécurité. Plus de contexte = plus de surface d'attaque.