DEFENSE LOW NEW

SkillGuard : un cadre de permissions pour ce qu'une skill d'agent peut faire à l'exécution

Un papier de juin 2026 comble l'écart entre ce qu'une skill injecte dans le contexte d'un agent et ce qu'elle lui fait faire, via des manifestes, un contrôle d'accès deny-by-default et de la surveillance à l'exécution.

2026-06-17 // 6 min affects: llm-agents, agent-skills, tool-calling-agents

De quoi s’agit-il ?

SkillGuard: A Permission Framework for Agent Skills (arXiv:2606.03024, publié en juin 2026) est une proposition défensive pour l’une des surfaces qui croissent le plus vite dans l’IA agentique : les skills. Une skill est un paquet — instructions, définitions d’outils, parfois du code — qu’un agent charge pour étendre ce qu’il sait faire. Le problème attaqué par le papier : aujourd’hui, les écosystèmes de skills reposent surtout sur un chargement fondé sur la confiance et une inspection statique. On lit le fichier, on juge qu’il a l’air correct, on l’installe. Cela laisse un écart entre ce qu’une skill peut injecter dans le contexte de l’agent et ce qu’elle peut lui faire faire à l’exécution.

C’est une contribution défensive, côté système. Elle ne contient aucun payload d’exploitation. La question à laquelle elle répond est celle de contraindre une skill une fois en cours d’exécution, pas d’en abuser.

Comment ça marche

SkillGuard reconsidère une skill comme un artefact exécutable porteur de permissions plutôt qu’un fichier texte de confiance, et applique un modèle de gouvernance à deux plans qui régule deux choses distinctes en même temps :

L’influence sur le contexte — ce que la skill est autorisée à mettre dans le contexte de raisonnement de l’agent, ou à y modifier.
Les effets de bord des actions — ce que la skill est autorisée à faire réellement faire à l’agent : quels outils, fichiers, destinations réseau et objets protégés elle peut toucher.

Concrètement, le cadre combine plusieurs mécanismes hérités du contrôle d’accès classique et adaptés aux agents :

Manifestes de skill — une déclaration explicite d’intention et de capacités requises, pour que les permissions d’une skill soient explicites et auditables plutôt qu’implicites.
Application deny-by-default — tout ce qui n’est pas déclaré est refusé, l’inverse du statu quo « charger et faire confiance ».
Contrôle d’accès à l’exécution — les permissions sont vérifiées pendant que la skill agit, pas seulement lors de l’inspection de ses fichiers à l’installation.
Autorisation médiée par l’utilisateur — les capacités à fort impact exigent une décision humaine plutôt qu’un octroi silencieux.
Inférence de capacités et surveillance du comportement — le système infère ce dont une skill a réellement besoin et détecte les divergences entre l’intention déclarée et le comportement observé à l’exécution.

Les chiffres rapportés donnent une idée de la couverture et du coût. La taxonomie de permissions de SkillGuard couvre 99,76 % des objets protégés observés, et la génération automatique de manifestes atteint 91,0 % de F1 — c’est-à-dire que le cadre peut largement proposer le manifeste de permissions d’une skill sans qu’un humain l’écrive à la main. En évaluation adverse, il réduit le taux de succès des attaques de 32,37 % à 23,02 % pour les injections contextuelles et de 25,56 % à 16,67 % pour les injections plus évidentes, tout en préservant l’utilité sur les tâches légitimes. Ce sont des réductions partielles, pas une élimination — un point à garder en tête.

Pourquoi c’est important

Les skills héritent de toutes les faiblesses de la prompt injection et du détournement d’outils, et y ajoutent un problème d’empaquetage et de distribution. La littérature a déjà cartographié cette surface : une étude des skills d’agents couvre leur architecture, leur acquisition et leurs risques de sécurité (arXiv:2602.12430), et des travaux d’évaluation comme SkillVetBench (arXiv:2606.15899) notent les skills open source selon leur risque de sécurité avant installation. Le thème récurrent : une skill est un contenu tiers non fiable doté de privilèges inhabituels — elle peut réécrire les instructions de l’agent et lui fournir de nouveaux outils — alors qu’elle n’est généralement gouvernée que par un coup d’œil au fichier.

SkillGuard compte parce qu’il déplace l’application des règles là où le risque vit réellement : à l’exécution, en moindre privilège. L’inspection statique attrape les fichiers connus comme mauvais, mais elle ne voit pas ce qu’une skill fait une fois que l’agent raisonne et agit sur des données vivantes, potentiellement influencées par un attaquant. Lier une skill à un manifeste déclaré et refuser tout ce qui en sort transforme « j’ai lu le README » en une frontière applicable. Le caractère partiel des réductions rapportées porte aussi une leçon : une couche de permissions réduit le rayon d’impact, elle ne rend pas sûre une skill malveillante ou détournée.

Défenses

Pour les équipes qui publient ou installent des skills d’agents, les enseignements pratiques dépassent ce seul cadre :

Traitez les skills comme du code non fiable et privilégié. Une skill qui peut éditer le contexte et ajouter des outils est un objet à plus fort privilège qu’un document ordinaire. Gouvernez-la en conséquence, pas sur la confiance.
Adoptez le deny-by-default pour les capacités. N’accordez à une skill que les outils, chemins et destinations réseau qu’elle déclare nécessaires ; refusez le reste. Ne laissez pas la confiance à l’installation devenir une autorité à l’exécution.
Séparez l’influence sur le contexte des effets de bord des actions. Savoir qu’une skill peut façonner le raisonnement est différent de savoir qu’elle peut faire sortir des données. Suivez et contrôlez les deux plans.
Exigez une autorisation humaine pour les actions à fort impact. Les opérations irréversibles ou sensibles (suppressions, transferts, envois externes, accès à des identifiants) doivent requérir une approbation humaine explicite, pas un octroi silencieux.
Surveillez l’intention déclarée par rapport au comportement à l’exécution. Un manifeste n’est utile que si l’on détecte les écarts. Journalisez et alertez quand une skill cherche à atteindre des capacités jamais déclarées.
Ne prenez pas une couche de permissions pour une garantie. SkillGuard réduit le succès des injections mais ne l’annule pas. Associez-la au filtrage entrée/sortie, au sandboxing et à l’hygiène habituelle de la triade létale (limiter dans une même boucle l’accès aux données privées, le contenu non fiable et la communication externe).

État des lieux

Élément	Détail
Papier	« SkillGuard: A Permission Framework for Agent Skills »
ID arXiv	2606.03024
Publié	Juin 2026
Type	Cadre de permissions défensif — aucun payload d’exploitation
Modèle	Gouvernance à deux plans : influence sur le contexte + effets de bord des actions
Mécanismes	Manifestes, deny-by-default, contrôle d’accès à l’exécution, autorisation médiée par l’utilisateur, inférence de capacités, surveillance comportementale
Résultats rapportés	Taxonomie couvrant 99,76 % des objets protégés ; génération de manifestes 91,0 % F1 ; succès des injections 32,37 %→23,02 % (contextuelles) et 25,56 %→16,67 % (évidentes) ; utilité préservée