系统:运行中
← 返回所有攻击
AGENTS MEDIUM NEW

跨域多智能体 LLM 系统:七大安全挑战

2026 年 6 月 13 日发表于《npj Artificial Intelligence》的一篇观点文章,梳理了来自不同组织的 LLM 智能体在缺乏共同信任模型的情况下协作时所出现的七大安全挑战。

2026-06-16 // 7 min affects: multi-agent-systems, autogen, metagpt, chatdev, llm-agents

这是什么?

2026 年 6 月 13 日,《npj Artificial Intelligence》(Nature Portfolio)发表了开放获取的观点文章 Seven security challenges in cross-domain multi-agent LLM systems,作者为 Ronny Ko 等人(大阪大学、首尔国立大学、延世大学)。文章研究了一种在生产环境中日益常见的部署形态:在这些网络中,各自由不同组织控制的自主 LLM 智能体在没有中央监督的情况下进行协作——例如来自不同机构的灾害响应机器人、竞争企业的供应链智能体,或不同供应商的医疗 AI。

其核心论点关乎信任边界。现有的 AI 安全研究大多假设单一部署,或假设多智能体系统局限于单一组织内部,由「统一的信任模型或策略框架」治理。跨域部署打破了这一假设:智能体跨越所有权边界进行交互,而在此处无法假定任何普适的信任或治理。因此,「一个孤立时无害的 AI 智能体,在与他者交互时可能——无论有意还是无意——变成威胁」。作者警告,这些生态系统可能成为「2020 年代的’早期互联网’」,若在缺乏安全优先理念的情况下部署,将重蹈代价高昂的安全债务覆辙。

工作原理

文章将七大挑战归为两类。前四项属于以行为为中心——智能体如何组队并做出决策;后三项属于以数据为中心——它们所交换内容的内容与隐私。默认威胁模型既保守又贴近现实:仅需一个恶意或被攻陷的智能体,且该智能体能够看到跨域策略合法允许的智能体间消息。

七大挑战为:

  • C1——未经审核的动态组队。 智能体在运行时自组织为临时的跨组织团队,形成单域信任框架无法审核的临时联盟。攻击者可将带后门的模型(例如通过公共模型仓库)植入某个联盟。
  • C2——合谋控制。 合法协作与恶意合谋外观相似。文中示例:采购智能体与库存智能体通过改变单价的小数精度(12.450 与 12.45)编码一比特隐蔽信号,以抬高安全库存——每条消息都能通过格式校验,且没有任何审计方掌握合并后的全貌。
  • C3——相互冲突的激励与目标。 缺乏共同的身份权威机构,智能体无法可靠地相互验证,从而为冒充和中间人攻击打开大门(例如供应商的智能体冒充「监管合规机器人」以推销专有建议)。
  • C4——分布式自调优失配。 当智能体在跨域环境中自我改进而缺乏统一的奖励治理时,从一个域共享的被投毒的微调更新可将策略盲点传播到另一个域。这种「奖励反馈攻击利用了学习过程本身,无需显式合谋」。
  • C5——跨域溯源不透明。 各域日志相互分离,加之 LLM 在其内部表示中将输入相互纠缠,使得有问题的输出往往无法追溯到导致它的上游域。
  • C6——跨域上下文绕过。 违反策略的信息披露可由各自无害的片段拼装而成。薪资示例:向某公司的薪资智能体询问某部门的最高薪资,再向 HR 智能体询问谁的薪酬最高,然后将两个答案结合。
  • C7——跨域机密性与完整性。 在保护隐私的盲推理流水线中,任何一方都看不到明文输出,从而可能发生「伪造输出攻击」:用户篡改解密后的结果,并将其归于一个「从未看到过」所要求签署内容的服务。

以上各点都不是针对某个具名生产产品的即用型漏洞利用;它们是一套结构性失效模式的分类法,每一项都以一个合理场景加以说明。

为何重要

这类部署恰恰在数据价值高、各方相互不信任之处蔓延:跨机构响应、跨企业物流、多供应商医疗、联邦内容审核。文章的要点在于:使这些系统有用的那一特性——跨组织的自主协作——也正是瓦解单域防御所依赖的统一信任模型的根源。「一旦模型跨越所有权边界,无论是单智能体防御还是传统的多智能体防护都不再足够。」这与 2026 年的行业遥测数据相吻合:OWASP 与从业者报告称,提示注入仍是生产环境中大多数智能体 AI 失效的根源,而跨域协作成倍扩大了不可信输入进入可信推理回路的攻击面。

防御

这篇观点文章为每项挑战配以一个研究方向和一项具体、可持续上报的指标,而非现成的修复方案。所提出的对策包括:信任自适应动态组队账本(按对端记录信任分,隔离低信任对端);对抗式多智能体训练,使合谋无法带来净收益;基于元 LLM 的冲突仲裁协议,其裁决须经两个域的人类操作员批准;通过共享评判器实现的跨域奖励对齐;带有嵌入式输出签名、由取证模型解码的神经溯源追踪;监视整段多智能体对话以检测复合泄露的会话级语义防火墙;以及隐私保护的可验证推理(在加密答案之外附带一份公开证明草图,验证方无需看到输入即可核验)。

关键在于:所提出的每项评估指标都是一个比率——组波动性、隐蔽信道分数、溯源覆盖率、恶意提示拦截率、安全信道利用率等——以便运营方可将其上报至仪表盘并设定阈值(文章建议「当某指标降至 0.9 以下时停止执行」),从而为监管方提供一份现成的认证记分卡。对于当下已在运行跨域智能体的团队,可落地的要点是把经典的纵深防御应用于边界:对每条智能体间消息进行加密签名与认证(mTLS);保留可跨域留存的按主体溯源与审计日志;在验证之前将任何对端模型或更新视为不可信;用 DLP 过滤出口流量;并在跨域指令生效之前要求人工批准。作者强调,这需要「AI 安全、密码学与分布式系统各社区的紧密协作」。

状态

这是一篇经同行评审的观点文章(2025 年 11 月 13 日收稿;2026 年 6 月 1 日接收;2026 年 6 月 13 日发表;DOI 10.1038/s44387-026-00128-9),而非漏洞披露——没有 CVE,也没有补丁。它将自己定位为对更广泛的多智能体风险研究(如 Open Challenges in Multi-Agent Security)的补充,专门梳理那些跨域协作所特有或被其显著放大的七大挑战。给架构师的实际启示:随着智能体间协议跨越组织边界扩展,信任模型必须在协议层加以设计——它不会从任何单一运营方的策略中自动继承而来。

Sources