Prompt injection dans la nature : attaques cachées dans le tri de CV par LLM
Une étude USENIX Security 2026 portant sur 196 682 CV réels révèle qu'environ 1 % contiennent des injections de prompt cachées — et plus de 90 % sont des « injections de données » invisibles, pas les instructions explicites que cherchent les détecteurs actuels.
De quoi s’agit-il ?
Le 27 mai 2026, des chercheurs de Duke, de l’UNC, de l’UC Berkeley et de la plateforme de recrutement hireEZ ont publié Measuring Real-World Prompt Injection Attacks in LLM-based Resume Screening (arXiv:2605.28999, à paraître à USENIX Security 2026). Il s’agit, selon les auteurs, de la première mesure à grande échelle de l’injection de prompt dans une application LLM déployée — non pas une démonstration de laboratoire, mais un comptage de la fréquence réelle de l’attaque en production.
L’injection de prompt occupe la première place de l’OWASP LLM Top 10 depuis 2023, mais presque toutes les preuves de son existence restaient conceptuelles ou anecdotiques. Cette étude comble ce manque par des données : environ 1 % des quelque 196 682 CV réels contenaient des instructions ou des mots-clés cachés visant à manipuler le tri automatisé. Le modèle de menace est banal et mérite d’être posé clairement : l’attaquant est un candidat qui cherche à mieux classer son propre CV, et la charge utile est invisible pour un humain lisant le PDF.
Comment ça marche
L’étude a analysé deux jeux de données dé-identifiés fournis par hireEZ : 83 277 CV issus d’un produit d’appariement de candidats (juillet 2024 – novembre 2025) et 113 405 provenant de systèmes de suivi des candidatures d’entreprise (juillet 2019 – décembre 2025). Un Hybrid Cascade Detector sensible au document (analyse de police et de couleur par règles, suivie d’une vérification par LLM) et un Visual Discrepancy Analyzer (un modèle vision-langage comparant la page rendue au texte extrait par la machine) ont signalé le contenu caché. Les deux tournent désormais dans la chaîne de production de hireEZ.
Les techniques de dissimulation sont de vieilles astuces de typographie, pas des exploits inédits : aucune charge utile n’est reproduite ici. Les candidats intègrent un texte que l’œil humain ne voit pas mais qu’un parseur PDF extrait : texte blanc sur fond blanc (par couleur), tailles de police d’environ 1 pt (par taille), texte placé hors de la zone visible (par position), ou couches PDF que les parseurs lisent mais que les moteurs de rendu n’affichent pas.
Le résultat phare renverse les hypothèses de la communauté de recherche. Plus de 90 % des injections détectées — 90,5 % dans le jeu récent, 95,7 % dans l’historique — ne sont pas du tout des instructions. Ce sont des injections de données : des blocs cachés de compétences, de mots-clés et d’expériences fabriqués pour tromper la correspondance par mots-clés et la similarité d’embeddings. Les charges explicites « ignore previous instructions », celles qui obsèdent les benchmarks, restent une minorité.
Cette répartition explique pourquoi les détecteurs textuels existants échouent sur cette surface. L’étude relève DataSentinel à 87,0 % de rappel mais 0,9 % de précision (il signale presque tout), tandis que PromptArmor et PromptGuard atteignent 58,3 % et 45,5 % de précision mais s’effondrent à 7,0 % et 5,0 % de rappel — parce qu’ils traquent des motifs d’instruction que 90 % des attaques réelles n’emploient tout simplement pas. Une liste de mots-clés cachée est sémantiquement indiscernable d’un texte de CV légitime ; le seul signal fiable est l’écart visuel entre ce que voit un humain et ce que la machine extrait.
Pourquoi c’est important
C’est le premier chiffre solide de prévalence de l’injection de prompt dans la nature, et il n’est pas négligeable : environ 1 CV sur 100, ce que les auteurs qualifient de borne basse conservatrice. La tendance temporelle est l’autre révélateur. Le jeu de données sur 6,5 ans est plat entre 0,6 et 0,8 % de 2019 à 2023, puis bondit à environ 1,2 % en 2024 — au moment où le tri par LLM est devenu largement connu des candidats. L’injection de prompt se comporte ici comme un comportement social émergent, pas comme un bruit de fond fixe.
La leçon dépasse le recrutement. Une étude de benchmark complémentaire, AI Security Beyond Core Domains (arXiv:2512.20164, mise à jour le 26 avril 2026), a mesuré des taux de succès d’attaque supérieurs à 80 % pour certains types d’injection contre des prompts de tri de CV, et a noté que les défenses courantes dans des domaines matures comme la revue de code sont tout simplement absentes du tri de CV, de l’évaluation par les pairs et d’autres chaînes spécialisées. Tout flux qui alimente un LLM avec des documents non fiables et agit sur la sortie — CV, factures, tickets de support, soumissions scientifiques — hérite de la même exposition.
Défenses
- Validez entre modalités, pas seulement le texte. L’attaque dominante est invisible pour les filtres purement textuels. Rendez le document en image, extrayez séparément le texte lisible par la machine, et signalez le contenu qui apparaît dans l’extraction mais pas dans le rendu visible par l’humain. Ce contrôle d’écart visuel est le signal le plus efficace identifié par l’étude.
- Supprimez ou normalisez le contenu caché avant que le LLM ne le voie. Écartez à l’ingestion les tailles de police sous le seuil (par ex. inférieures à 4 pt), le texte dont la couleur correspond au fond, les éléments hors page et les couches PDF non rendues.
- Ne vous reposez pas sur les seuls détecteurs de motifs d’instruction. Les outils réglés sur « ignore previous instructions » manquent les 90 %+ d’attaques sans instruction. Traitez-les comme une couche, pas comme le contrôle principal.
- Privilégiez les défenses à l’entraînement quand l’enjeu est élevé. L’étude de benchmark a constaté que la mitigation par prompt ne réduisait les attaques que de 10,1 % (au prix de 12,5 % de faux rejets), tandis qu’une approche Foreign Instruction Detection through Separation ajustée par LoRA atteignait 15,4 %, et les deux combinées 26,3 % — les méthodes à l’entraînement ont surpassé les prompts à l’inférence sur la sécurité comme sur l’utilité. Notez que même la meilleure réduction combinée reste partielle : superposez les défenses, n’en attendez pas une pour combler l’écart.
- Gardez le modèle consultatif, pas décisionnaire. Lorsqu’un CV injecté pourrait changer une décision d’embauche, le LLM doit faire remonter et classer, l’humain tranchant — et les journaux de tri devraient consigner l’écart extraction/visible à des fins d’audit.
Statut
| Élément | Référence | Date | Notes |
|---|---|---|---|
| Étude de mesure publiée | Zhang et al., arXiv:2605.28999 | 2026-05-27 | USENIX Security 2026 ; ~196 682 CV, ~1 % injectés |
| Part d’injection de données | idem | 2026-05-27 | 90,5 % (récent) / 95,7 % (historique) sans instruction explicite |
| Tendance dans la nature | idem | 2019–2025 | Stable ~0,6–0,8 %, bond à ~1,2 % en 2024 |
| Comparaison des détecteurs | idem | 2026-05-27 | Les détecteurs généralistes échouent sur l’injection de données |
| Benchmark + défense FIDS | Mu et al., arXiv:2512.20164 | 2026-04-26 | >80 % d’ASR pour certains types ; défense combinée ~26,3 % de réduction |
À retenir : le tri de CV n’est pas uniquement défaillant — c’est que l’injection de prompt est silencieusement passée de la preuve de concept à un comportement réel mesurable et en hausse, et que les détecteurs conçus pour la version théorique de l’attaque manquent la version que les gens emploient réellement.