JAILBREAK

(12)

12 hack(s).

Jailbreak par cadrage CTF : le prompt fuite dans l'attaque

Sysdig (15 juin 2026) a observé des opérateurs jailbreakant leur propre assistant de code en déguisant leurs demandes d'exploit en CTF ou chasse aux CVE — et ce cadrage fuit dans les User-Agents, mots de passe et journaux IAM, laissant une empreinte précieuse pour les défenseurs.

2026-06-21//8 min

JAILBREAK MEDIUM NEW

Surcharge cognitive : comment une faible résolution d'image jailbreake les LLM multimodaux

Un papier de mai 2026 (Findings of ACL 2026) montre que réduire la résolution d'un texte rendu sous forme d'image fait basculer les MLLM de pointe dans une « zone de confort d'attaque » où l'alignement de sécurité s'effondre alors que l'OCR reste fiable.

2026-06-21//6 min

JAILBREAK MEDIUM NEW

Jailbreak par RL : la récompense et la durée d'épisode font l'attaque

Une étude de juin 2026 décompose le jailbreak par apprentissage par renforcement et montre que la conception de l'environnement — récompense dense et longs épisodes — pèse plus que l'algorithme.

2026-06-20//7 min

JAILBREAK MEDIUM NEW

UniAttack : un jailbreak automatisé qui vise les défenses LLM en couches

Un preprint de juin 2026 construit un framework de red teaming automatisé combinant plusieurs stratégies et le lance contre des modèles aux défenses empilées — montrant qu'empiler des garde-fous ne garantit pas la robustesse.

2026-06-20//5 min

JAILBREAK MEDIUM NEW

Les jailbreaks adaptatifs continuent de percer les défenses LLM : le vrai problème, c'est l'évaluation

Un framework de juin 2026, UniAttack, compose des « caractéristiques » d'attaque réutilisables en jailbreaks one-shot qui se transfèrent d'un modèle et d'une défense à l'autre — preuve qu'une défense testée seulement contre des attaques statiques offre une fausse assurance.

2026-06-18//6 min

JAILBREAK MEDIUM

IICL : la complétion de motif bat l'alignement avec 10 exemples

Un papier arXiv d'avril 2026 retourne l'apprentissage en contexte contre le modèle : une dizaine d'exemples à base d'opérateurs abstraits font compléter à GPT-5.4 un motif nuisible que ses filtres de contenu ne détectent jamais.

2026-06-17//7 min

JAILBREAK MEDIUM NEW

Para-jailbreaking : quand la « safe completion » fuit le danger dans l'alternative

Un papier arXiv du 27 avril 2026 nomme un nouveau mode de défaillance de la sûreté centrée sur la sortie : le modèle refuse correctement la question directe, mais laisse fuir du contenu nuisible dans l'« alternative sûre » qu'il propose à la place.

2026-06-16//7 min

JAILBREAK MEDIUM NEW

Jailbreak vidéo multi-clips : pourquoi la vidéo casse la sûreté des LLM multimodaux

Un papier ACL de juin 2026 montre que le canal vidéo est une frontière de sûreté plus faible que l'image : le taux de réussite grimpe quand la vidéo est découpée en clips variés.

2026-06-14//7 min

JAILBREAK MEDIUM NEW

CodeSpear : quand le décodage sous contrainte grammaticale devient une surface de jailbreak

Un papier arXiv du 10 juin 2026 montre que la fonctionnalité de fiabilité qui force la sortie de code d'un LLM à être syntaxiquement valide peut elle-même servir de jailbreak. Appliquer une grammaire de code anodine contourne les refus ; la défense CodeShield des auteurs répond par du code leurre.

2026-06-12//6 min

JAILBREAK MEDIUM NEW

Sockpuppeting : un préfixe d'une ligne qui jailbreak 11 LLM en production

Une seule ligne injectée comme dernier message « assistant » incite 7 modèles majeurs sur 10 à générer du contenu nuisible. Le correctif n'est pas dans le modèle — c'est une validation d'ordre des messages côté API.

2026-05-28//8 min

JAILBREAK MEDIUM

Jailbreaks par encodage mathématique : quand la théorie des ensembles contourne l'alignement

Un papier arXiv publié le 5 mai 2026 montre que reformuler une requête nuisible en problème de théorie des ensembles ou de logique formelle contourne l'alignement de 46 à 56 % du temps sur huit modèles de pointe — mais seulement si un LLM auxiliaire fait la reformulation.

2026-05-25//7 min

JAILBREAK CRITICAL

Many-shot jailbreaking : 256 exemples pour contourner n'importe quel alignement

Les chercheurs d'Anthropic ont montré qu'en remplissant la fenêtre de contexte avec 256 faux exemples de Q&R, on contourne l'entraînement de sécurité. Plus de contexte = plus de surface d'attaque.

2026-05-15//6 min