RESEARCH LOW NEW

Injection neuro-prompt : quand le signal cérébral devient le canal d'autorisation d'un agent

Un papier arXiv du 8 juin 2026 nomme une nouvelle surface d'attaque : les pipelines BCI-vers-agent qui transforment l'EEG décodé en canal d'autorisation. Trois vecteurs inversent l'action routée pendant que les moniteurs EEG et texte restent aveugles.

2026-06-13 // 6 min affects: bci-llm-agents, eeg-command-control, tool-use-agents

De quoi s’agit-il ?

Le 8 juin 2026, Jianwei Tai a publié sur arXiv Brain-Prompt Injection: A Route-Safety Audit for BCI-LLM Agents (2606.09315, cs.CR). Le papier s’intéresse à un pipeline qui apparaît dans les démonstrations de recherche : une interface cerveau-machine (BCI) décode l’activité neuronale — ici des signaux EEG d’imagerie motrice — et transmet la commande décodée à un agent LLM outillé, qui route alors une action. Dans cette architecture, le signal cérébral décodé devient un canal d’autorisation : c’est lui qui indique à l’agent quel outil déclencher.

L’apport de Tai est de nommer et d’auditer la surface d’attaque qui en résulte, qu’il appelle brain-prompt injection (injection neuro-prompt). La démarche est défensive. Il ne s’agit pas d’un exploit contre un produit déployé — les piles BCI-vers-agent en sont au stade de la recherche — mais d’une étude formelle de ce qu’un journal d’audit doit capturer avant que quiconque puisse prétendre que ce pipeline route les actions de façon sûre.

Comment ça marche

Le papier identifie trois façons, pour un attaquant, de changer l’action que l’agent route sans que les moniteurs évidents ne voient quoi que ce soit : des perturbations côté signal (falsification côté EEG), des injections de contexte seul (manipulation du texte/contexte que lit l’agent, sans toucher au signal neuronal) et des attaques adaptatives à double décodeur qui opposent le chemin signal et le chemin texte. L’observation centrale : un moniteur côté EEG et un moniteur côté texte peuvent tous deux paraître propres alors que l’action routée a été inversée — aucune des deux vues, isolément, ne voit la manipulation conjointe.

L’argument de fond est que la sûreté du routage dépend de ce que le journal d’audit peut observer, et non de la précision du décodeur ni du seul accord signal/texte. Tai formalise cela par un Route-Safety Audit Contract — un schéma de journal minimal, une hiérarchie de dénominateurs et une spécification d’endpoint — et prouve deux résultats : un théorème de séparation de schéma d’audit et une décomposition de la « dépendance attaquée » pour la classe de routes que le papier nomme C3. La leçon mathématique est dérangeante : l’accord propre entre canaux et la robustesse marginale ordinaire n’identifient pas le terme conjoint qui contrôle réellement le routage C3. Autrement dit, deux canaux qui s’accordent ne prouvent pas que la route est sûre.

L’instanciation empirique tourne sur le jeu de données public d’imagerie motrice EEGMMI (contrôle natif gauche/droite, 5 400 événements), avec des stubs d’outils inoffensifs en lieu et place d’actions réelles. Les résultats de routage rapportés sont nets : la provenance seule bloque les routes C2 les plus simples (taux de bascule 0,000) ; l’accord-plus-provenance laisse passer les bascules C3 (1,000) ; et seule la confirmation-plus-provenance les referme (0,000). Une couche de calibration — calibration conforme par découpage (split-conformal) sur un canal de confirmation EEG non-oracle — rapporte une frontière de faux-accepts sous une matrice explicite d’archétypes de menace : FAR 0,000 à utilité propre 0,150 (α=.005) et FAR 0,119 à utilité propre 0,452 (α=.10) en isolation d’acquisition. La réserve cruciale : si le canal de confirmation est lui-même contrôlable par l’attaquant, cette borne s’effondre à environ 1 — la défense s’évapore. Un bootstrap par grappes de sujets sur 60 sujets et deux architectures de décodeur (TinyEEGNet, EEGNetV4) confortent les intervalles.

Pourquoi c’est important

La pile précise — EEG vers agent — est de niche aujourd’hui, mais la leçon se généralise à toute conception d’autorisation capteur-vers-agent, où un signal décodé (voix, regard, geste, biométrie ou neuronal) est jugé digne de confiance pour choisir une action. Le cadrage du papier s’applique directement : si vous autorisez des appels d’outils à partir d’un signal décodé, surveiller le signal et surveiller le texte indépendamment peut passer alors que l’action routée est fausse. La sûreté est une propriété de l’audit conjoint, et de la provenance assortie d’une étape de confirmation indépendante — pas de la précision de l’un ou l’autre canal.

Le papier pose aussi une note de prudence pour qui construit des agents « pilotés par l’intention ». Il est explicite : la médiation et la confirmation réduisent le risque mais ne sont pas des certificats d’intention ; elles ne prouvent pas que l’action routée correspond à l’intention réelle de l’utilisateur. Et toute la défense repose sur un canal de confirmation hors de portée de l’attaquant — dès que cette hypothèse tombe, la borne de faux-accepts file vers ~1.

Défenses

La structure du papier se lit comme une check-list pour les pipelines capteur-vers-agent :

Auditez la route conjointe, pas chaque canal. Un moniteur EEG propre et un moniteur texte propre ne prouvent pas une route sûre. Journalisez et évaluez la route comme un objet unique, avec la hiérarchie de dénominateurs spécifiée par le papier, afin que le terme de dépendance conjointe soit réellement observable.
Rendez la provenance porteuse. La provenance seule a bloqué d’emblée la classe de routes la plus simple (C2). Enregistrez d’où provient chaque signal autorisant et liez-le à l’action qu’il justifie.
Ajoutez une étape de confirmation indépendante — et protégez-la. La confirmation-plus-provenance est ce qui a refermé les bascules difficiles (C3). Mais sa valeur est entièrement conditionnée au fait que le canal de confirmation soit hors du contrôle de l’attaquant ; s’il peut l’influencer, la garantie s’effondre à ~1. Isolez l’acquisition et traitez le chemin de confirmation comme la cible la plus précieuse.
Calibrez explicitement le taux de faux-accepts. Utilisez une matrice d’archétypes de menace énoncée et une méthode de calibration (ici split-conformal) pour pouvoir nommer votre point de fonctionnement sur la frontière utilité/faux-accepts, au lieu de supposer que « le décodeur est précis » signifie « la route est sûre ».
Ne vendez pas la médiation comme de l’intention. Confirmation et médiation abaissent le risque ; elles ne certifient pas que l’action routée est ce que l’humain voulait. Gardez des portées d’outils à moindre privilège et des actions réversibles derrière l’agent, quoi qu’il arrive.

Statut

Élément	Référence	Date	Notes
Papier publié	arXiv 2606.09315 (cs.CR)	2026-06-08	Auteur unique, Jianwei Tai
Surface d’attaque	« Brain-prompt injection »	—	Côté signal, contexte seul, double décodeur adaptatif
Jeu de données	EEGMMI imagerie motrice	—	Contrôle gauche/droite, 5 400 événements, stubs d’outils inoffensifs
Résultat clé	Accord ≠ sûreté	—	Provenance bloque C2 (0,000) ; accord+provenance bascule encore C3 (1,000) ; confirmation+provenance referme (0,000)
Limite dure	Confirmation contrôlable par l’attaquant	—	La borne de faux-accepts s’effondre à ≈1

Le titre n’est pas « les pirates peuvent lire dans vos pensées ». Il est plus étroit et plus utile : dès qu’un signal décodé autorise les actions d’un agent, la sûreté réside dans le journal d’audit conjoint, la provenance fait un vrai travail, un canal de confirmation indépendant est le point de bascule — et rien de tout cela ne certifie l’intention.