système : OPÉRATIONNEL
← retour à tous les hacks
DEFENSE MEDIUM

Confidential Computing et IA agentique : ce que les enclaves ne protègent pas

Une étude de mai 2026 projette le confidential computing sur la pile agentique : les enclaves matérielles protègent la mémoire et le cache KV d'un opérateur cloud malveillant, mais n'arrêtent pas la prompt injection.

2026-06-15 // 6 min affects: llm-agents, mcp, rag-systems, gpu-tee

De quoi s’agit-il ?

Le 4 mai 2026, Javad Forough, Marios Kogias et Hamed Haddadi ont publié When Agents Handle Secrets: A Survey of Confidential Computing for Agentic AI (arXiv:2605.03213). C’est la première tentative systématique de projeter le Confidential Computing (CC) — les environnements d’exécution de confiance (TEE) ancrés dans le matériel — sur les besoins de sécurité des agents LLM qui planifient, appellent des outils, conservent une mémoire persistante et délèguent à des agents pairs via des protocoles comme MCP et A2A.

Le cadrage de l’étude vaut surtout par son honnêteté sur les limites. Le CC ne corrige pas la prompt injection. Sa conclusion principale : si plusieurs primitives matérielles de confiance semblent assez mûres pour des déploiements ciblés, « aucun cadre de bout en bout largement établi ne les assemble encore en un socle de sécurité cohérent pour l’IA agentique en production ». Il s’agit d’un travail d’architecture défensive, pas d’une nouvelle attaque.

Comment ça marche

Les défenses d’agent actuelles — filtres d’entrée, classifieurs de sortie, listes d’autorisation — « opèrent entièrement dans la pile logicielle et peuvent être contournées silencieusement par un adversaire suffisamment privilégié, comme un opérateur cloud compromis ». Le CC déplace la frontière de confiance dans le matériel : code et données s’exécutent dans une enclave attestée que même l’OS hôte, l’hyperviseur ou l’opérateur d’infrastructure ne peut lire ni altérer.

Les auteurs décomposent un agent en cinq couches — perception, planification, mémoire, action, coordination — et classent les adversaires par puissance : attaquant externe, co-locataire compromis, opérateur d’infrastructure malveillant (le cas que le CC est conçu pour neutraliser), et agent compromis. Ils identifient ensuite les actifs de valeur qu’un TEE envelopperait :

perception   -> prompts utilisateur, documents récupérés, entrées d'outils
planning     -> poids du modèle, prompts système, adaptateurs LoRA fine-tunés
memory       -> cache KV, historique, base vectorielle, identifiants
action       -> appels d'outils, paramètres, sorties d'outils
coordination -> messages inter-agents, revendications de délégation, attestation

La mémoire est désignée comme cible prioritaire : les bases vectorielles long terme accumulent des mois de contexte propriétaire, et le cache KV peut fuir une conversation à l’identique. L’étude cite la faille réelle LeftoverLocals, où des résidus de cache KV en mémoire GPU partagée ont permis de reconstruire des conversations entre locataires — exactement la classe de fuite qu’un TEE GPU doit fermer.

Le matériel existe. L’étude couvre six plateformes — Intel SGX, Intel TDX, AMD SEV-SNP, ARM TrustZone, ARM CCA et NVIDIA H100 Confidential Computing — le premier TEE GPU, ancré dans une racine de confiance sur puce avec des rapports d’attestation signés. NVIDIA annonce moins d’environ 7 % de surcoût en inférence LLM en mode CC, et des mesures indépendantes confirment que le surcoût des TEE GPU est désormais assez faible pour la production — contrairement au chiffrement homomorphe complet ou au MPC, qui imposent encore deux à quatre ordres de grandeur de surcoût.

Pourquoi c’est important

Les déploiements agentiques concentrent les secrets : clés d’API des fournisseurs, documents d’entreprise récupérés et mémoire accumulée cohabitent dans un même runtime. Dans un cloud multi-locataires, l’opérateur — ou quiconque le compromet — se trouve à l’intérieur de cette frontière de confiance. Le CC est le seul contrôle qui adresse directement cet adversaire ; une étude IDC citée par les auteurs trouve 75 % d’organisations adoptant le CC (18 % en production, 57 % en pilote).

Mais le point le plus tranchant est ce que le CC ne résout pas. Dans un agent, « le LLM est le plan de contrôle », et la surface d’attaque « est le sens des données, pas leur origine ni leur format ». Un TEE peut prouver quel code s’exécute et garder la mémoire confidentielle ; il ne peut pas prouver l’intention d’une entrée. Une enclave exécutera donc fidèlement une instruction injectée. L’exploit EchoLeak de 2025 (CVE-2025-32711), une injection zéro-clic qui exfiltrait les données de Microsoft 365 Copilot depuis un simple e-mail, se serait exécuté à l’identique dans une enclave parfaitement attestée.

Défenses

  • Utilisez le CC contre la menace opérateur, pas contre l’injection. Placez poids du modèle, bases vectorielles, cache KV et identifiants dans un TEE CPU+GPU pour neutraliser un opérateur d’infrastructure malveillant ou compromis et les fuites mémoire entre co-locataires (type LeftoverLocals).
  • Conservez les défenses sémantiques. Le CC complète — et ne remplace pas — le filtrage entrée/sortie, le moindre privilège sur les outils et la discipline de la lethal trifecta. La prompt injection reste un problème d’architecture.
  • Exigez une attestation composite. Attestez le TEE CPU et le TEE GPU ensemble ; l’attestation GPU seule laisse des trous. Traitez l’attestation comme « quel code s’exécute », jamais comme « cette entrée est fiable ».
  • Attention aux fuites résiduelles. Les TEE n’arrêtent pas les canaux auxiliaires — timing, contention cache/bus, attaques par canal contrôlé et fautes de page, état résiduel GPU. Associez le CC à des builds reproductibles, des model cards et une traçabilité du fine-tuning.
  • Suivez les problèmes ouverts. Les auteurs signalent six axes non résolus, dont l’attestation composée pour les chaînes d’agents multi-sauts, l’isolation RAG adossée au TEE, et les fuites par canal auxiliaire en inférence autorégressive.

État des lieux

ÉlémentDétail
SourceÉtude, arXiv:2605.03213v1 (cs.CR), CC BY 4.0
Publication4 mai 2026
Menace traitéeOpérateur d’infrastructure malveillant ; fuite mémoire entre co-locataires
Non traitéPrompt injection, objectifs non sûrs, compromission de la chaîne du modèle, canaux auxiliaires
Maturité TEE GPUNVIDIA H100 CC, ~7 % de surcoût en inférence (chiffre NVIDIA)
Verdict de maturitéPrimitives utilisables ; pas encore de socle CC agentique de bout en bout

Sources