AGENTS MEDIUM NEW

跨域多智能体 LLM 系统：七大安全挑战

2026 年 6 月 13 日发表于《npj Artificial Intelligence》的一篇观点文章，梳理了来自不同组织的 LLM 智能体在缺乏共同信任模型的情况下协作时所出现的七大安全挑战。

2026-06-16 // 7 min affects: multi-agent-systems, autogen, metagpt, chatdev, llm-agents

这是什么？

2026 年 6 月 13 日，《npj Artificial Intelligence》（Nature Portfolio）发表了开放获取的观点文章 Seven security challenges in cross-domain multi-agent LLM systems，作者为 Ronny Ko 等人（大阪大学、首尔国立大学、延世大学）。文章研究了一种在生产环境中日益常见的部署形态：在这些网络中，各自由不同组织控制的自主 LLM 智能体在没有中央监督的情况下进行协作——例如来自不同机构的灾害响应机器人、竞争企业的供应链智能体，或不同供应商的医疗 AI。

其核心论点关乎信任边界。现有的 AI 安全研究大多假设单一部署，或假设多智能体系统局限于单一组织内部，由「统一的信任模型或策略框架」治理。跨域部署打破了这一假设：智能体跨越所有权边界进行交互，而在此处无法假定任何普适的信任或治理。因此，「一个孤立时无害的 AI 智能体，在与他者交互时可能——无论有意还是无意——变成威胁」。作者警告，这些生态系统可能成为「2020 年代的’早期互联网’」，若在缺乏安全优先理念的情况下部署，将重蹈代价高昂的安全债务覆辙。

工作原理

文章将七大挑战归为两类。前四项属于以行为为中心——智能体如何组队并做出决策；后三项属于以数据为中心——它们所交换内容的内容与隐私。默认威胁模型既保守又贴近现实：仅需一个恶意或被攻陷的智能体，且该智能体能够看到跨域策略合法允许的智能体间消息。

七大挑战为：

C1——未经审核的动态组队。 智能体在运行时自组织为临时的跨组织团队，形成单域信任框架无法审核的临时联盟。攻击者可将带后门的模型（例如通过公共模型仓库）植入某个联盟。
C2——合谋控制。 合法协作与恶意合谋外观相似。文中示例：采购智能体与库存智能体通过改变单价的小数精度（12.450 与 12.45）编码一比特隐蔽信号，以抬高安全库存——每条消息都能通过格式校验，且没有任何审计方掌握合并后的全貌。
C3——相互冲突的激励与目标。 缺乏共同的身份权威机构，智能体无法可靠地相互验证，从而为冒充和中间人攻击打开大门（例如供应商的智能体冒充「监管合规机器人」以推销专有建议）。
C4——分布式自调优失配。 当智能体在跨域环境中自我改进而缺乏统一的奖励治理时，从一个域共享的被投毒的微调更新可将策略盲点传播到另一个域。这种「奖励反馈攻击利用了学习过程本身，无需显式合谋」。
C5——跨域溯源不透明。 各域日志相互分离，加之 LLM 在其内部表示中将输入相互纠缠，使得有问题的输出往往无法追溯到导致它的上游域。
C6——跨域上下文绕过。 违反策略的信息披露可由各自无害的片段拼装而成。薪资示例：向某公司的薪资智能体询问某部门的最高薪资，再向 HR 智能体询问谁的薪酬最高，然后将两个答案结合。
C7——跨域机密性与完整性。 在保护隐私的盲推理流水线中，任何一方都看不到明文输出，从而可能发生「伪造输出攻击」：用户篡改解密后的结果，并将其归于一个「从未看到过」所要求签署内容的服务。

以上各点都不是针对某个具名生产产品的即用型漏洞利用；它们是一套结构性失效模式的分类法，每一项都以一个合理场景加以说明。

为何重要

这类部署恰恰在数据价值高、各方相互不信任之处蔓延：跨机构响应、跨企业物流、多供应商医疗、联邦内容审核。文章的要点在于：使这些系统有用的那一特性——跨组织的自主协作——也正是瓦解单域防御所依赖的统一信任模型的根源。「一旦模型跨越所有权边界，无论是单智能体防御还是传统的多智能体防护都不再足够。」这与 2026 年的行业遥测数据相吻合：OWASP 与从业者报告称，提示注入仍是生产环境中大多数智能体 AI 失效的根源，而跨域协作成倍扩大了不可信输入进入可信推理回路的攻击面。

防御

这篇观点文章为每项挑战配以一个研究方向和一项具体、可持续上报的指标，而非现成的修复方案。所提出的对策包括：信任自适应动态组队账本（按对端记录信任分，隔离低信任对端）；对抗式多智能体训练，使合谋无法带来净收益；基于元 LLM 的冲突仲裁协议，其裁决须经两个域的人类操作员批准；通过共享评判器实现的跨域奖励对齐；带有嵌入式输出签名、由取证模型解码的神经溯源追踪；监视整段多智能体对话以检测复合泄露的会话级语义防火墙；以及隐私保护的可验证推理（在加密答案之外附带一份公开证明草图，验证方无需看到输入即可核验）。

关键在于：所提出的每项评估指标都是一个比率——组波动性、隐蔽信道分数、溯源覆盖率、恶意提示拦截率、安全信道利用率等——以便运营方可将其上报至仪表盘并设定阈值（文章建议「当某指标降至 0.9 以下时停止执行」），从而为监管方提供一份现成的认证记分卡。对于当下已在运行跨域智能体的团队，可落地的要点是把经典的纵深防御应用于边界：对每条智能体间消息进行加密签名与认证（mTLS）；保留可跨域留存的按主体溯源与审计日志；在验证之前将任何对端模型或更新视为不可信；用 DLP 过滤出口流量；并在跨域指令生效之前要求人工批准。作者强调，这需要「AI 安全、密码学与分布式系统各社区的紧密协作」。

状态

这是一篇经同行评审的观点文章（2025 年 11 月 13 日收稿；2026 年 6 月 1 日接收；2026 年 6 月 13 日发表；DOI 10.1038/s44387-026-00128-9），而非漏洞披露——没有 CVE，也没有补丁。它将自己定位为对更广泛的多智能体风险研究（如 Open Challenges in Multi-Agent Security）的补充，专门梳理那些跨域协作所特有或被其显著放大的七大挑战。给架构师的实际启示：随着智能体间协议跨越组织边界扩展，信任模型必须在协议层加以设计——它不会从任何单一运营方的策略中自动继承而来。

跨域多智能体 LLM 系统：七大安全挑战

这是什么？

工作原理

为何重要

防御

状态

Sources