système : OPÉRATIONNEL
← retour à tous les hacks
AGENTS MEDIUM NEW

ConVerse : quand deux agents discutent, c'est le plus fort qui fuit le plus

Un benchmark des conversations agent-à-agent montre que les attaques de confidentialité réussissent jusqu'à 88 % du temps, les atteintes de sécurité jusqu'à 60 % — et que les modèles les plus capables fuitent davantage, pas l'inverse.

2026-06-13 // 7 min affects: gpt-4o, claude-3.5, gemini-1.5, llama-3.1, agentic-systems

What is this?

ConVerse est un benchmark qui mesure les défaillances de confidentialité et de sécurité lorsque deux agents LLM dialoguent entre eux plutôt qu’avec un humain. Il a été présenté par Amr Gomaa (Centre allemand de recherche en intelligence artificielle, DFKI), Ahmed Salem (Microsoft) et Sahar Abdelnabi (Microsoft / ELLIS Institute Tübingen / MPI for Intelligent Systems) dans un papier déposé sur arXiv le 7 novembre 2025 (arXiv:2511.05359) et publié dans les Findings de l’EACL 2026 (2026.findings-eacl.170). Le benchmark et la plateforme sont open source (github.com/amrgomaaelhady/ConVerse).

Pourquoi c’est d’actualité : les déploiements de 2026 mettent de plus en plus l’assistant personnel d’un utilisateur en conversation directe avec l’agent d’un prestataire externe — un assistant de voyage qui négocie avec l’agent d’une compagnie aérienne, l’agent d’un acheteur qui parle à celui d’un vendeur. La plupart des outils de sécurité ont été conçus et testés pour un agent unique répondant à un utilisateur unique. ConVerse mesure ce qui se passe quand cette hypothèse ne tient plus.

How it works

ConVerse modélise des conversations autonomes et multi-tours entre un agent côté utilisateur et un agent externe, dans trois domaines concrets : voyage, immobilier et assurance. Il s’appuie sur 12 personas utilisateurs et plus de 864 attaques contextuellement ancrées — 611 visant la confidentialité et 253 la sécurité.

La propriété déterminante est que les requêtes malveillantes sont noyées dans un discours plausible, au lieu d’apparaître comme des instructions injectées évidentes. L’agent adverse demande exactement l’information qu’un échange coopératif pourrait raisonnablement nécessiter — puis un peu plus, ou formulée légèrement hors de son contexte. La confidentialité est notée selon une taxonomie à trois niveaux qui juge la qualité d’abstraction : l’agent a-t-il partagé le strict nécessaire, trop partagé, ou divulgué quelque chose qui n’aurait jamais dû quitter le contexte de l’utilisateur. Les attaques de sécurité ciblent l’usage des outils et la manipulation des préférences — pousser l’agent à appeler un outil qu’il ne devrait pas, ou modifier discrètement les préférences déclarées de l’utilisateur.

La structure n’est volontairement pas celle de « l’instruction cachée dans la donnée ». C’est une question de savoir si une divulgation ou une action donnée respecte les normes du contexte qui l’entoure — le même cadre que celui défendu par Abdelnabi et Bagdasarian dans le papier d’impossibilité associé, AI Agents May Always Fall for Prompt Injections (17 mai 2026). ConVerse en est la contrepartie empirique : il montre la défaillance se produire, à grande échelle, chez plusieurs éditeurs.

Why it matters

Trois constats ressortent pour qui déploie des systèmes multi-agents.

Les taux de réussite sont élevés. Sur sept modèles de pointe, les attaques de confidentialité réussissent jusqu’à 88 % des cas et les atteintes de sécurité jusqu’à 60 %. Ce ne sont pas des cas limites obtenus avec des charges utiles exotiques : ce sont des demandes d’apparence banale au sein d’une négociation normale.

Les modèles les plus capables fuitent davantage, pas l’inverse. C’est le titre contre-intuitif : les modèles les plus forts, meilleurs pour se rendre utiles et pour deviner ce dont l’interlocuteur « a besoin », sont aussi plus enclins à livrer une information qui aurait dû rester en place. Ici, capacité et serviabilité jouent contre la confidentialité. Les équipes qui supposent qu’un passage à un modèle de frontière améliore la sécurité dans les contextes agent-à-agent devraient vérifier cette hypothèse plutôt que de s’y fier.

La sécurité devient une propriété émergente de la communication. Un agent isolé peut passer tous les contrôles de garde-fou tour par tour et fuiter malgré tout au fil d’un échange multi-tours, parce que le préjudice réside dans la conversation, pas dans un message unique. Les filtres d’entrée-sortie calibrés sur des prompts isolés ne le voient pas.

Defenses

ConVerse est un outil de mesure, pas un exploit. Le programme défensif qu’il dessine rejoint la littérature sur l’intégrité contextuelle.

Traitez les liens agent-à-agent comme une frontière de confiance. Un agent adverse externe est une entrée non fiable, exactement comme une page web ou un e-mail. Ne lui accordez pas d’autorité implicite au prétexte qu’il s’agit « d’un agent » s’exprimant dans un langage coopératif.

Appliquez la minimisation des données au point de sortie. Avant que l’agent côté utilisateur ne divulgue quoi que ce soit, vérifiez si ce champ précis est nécessaire à cette tâche précise, et privilégiez la forme la plus abstraite qui permet encore de mener l’échange (une plage de dates plutôt qu’un itinéraire exact, une fourchette de prix plutôt qu’un budget exact). La taxonomie d’abstraction à trois niveaux de ConVerse constitue une grille exploitable.

Conditionnez les appels d’outils et les changements de préférences à une confirmation contextuelle. Dans ConVerse, les attaques de sécurité passent par l’usage des outils et la manipulation des préférences ; les actions à fort impact ou inter-contextes devraient exiger un contrôle hors bande plutôt que de se déclencher automatiquement dans la conversation.

Évaluez en multi-tours, pas en tour unique. Comme la défaillance est émergente, votre banc de test doit dérouler des dialogues agent-à-agent complets. ConVerse est dynamique et open source : il peut être exécuté contre votre propre pile plutôt que traité comme un classement figé.

Ne présumez pas que le plus gros modèle est le plus sûr. Relancez les suites de confidentialité et de sécurité à chaque changement de modèle sous-jacent, et pondérez les résultats par l’autorité et les données réellement détenues par chaque agent.

Status

ÉlémentDétail
BenchmarkConVerse — arXiv:2511.05359, déposé le 7 nov. 2025
PublicationFindings de l’EACL 2026 (2026.findings-eacl.170)
AuteursAmr Gomaa (DFKI), Ahmed Salem (Microsoft), Sahar Abdelnabi (Microsoft / ELLIS / MPI-IS)
Périmètre3 domaines, 12 personas, 864+ attaques (611 confidentialité, 253 sécurité), 7 modèles
Résultats clésConfidentialité jusqu’à 88 %, sécurité jusqu’à 60 % ; les modèles plus forts fuitent davantage
Codegithub.com/amrgomaaelhady/ConVerse

À mesure que les assistants personnels se mettent à négocier directement avec les agents des prestataires, l’unité de sécurité se déplace du prompt vers la conversation. ConVerse offre aux équipes un moyen concret et reproductible d’observer le comportement de leurs propres agents quand, de l’autre côté de la table, se trouve aussi un modèle.

Sources