致命三要素已成默认配置——在运行时防御智能体
致命三要素曾用于标记高风险智能体。到2026年中,它几乎描述了所有有用的智能体,靠架构规避已不再奏效。防御重心转向运行时的五类行为信号。
这是什么?
2025年6月,Simon Willison 提出了”致命三要素”:当一个智能体同时具备访问私有数据、接触不可信内容、以及向外部通信的能力时,便几乎必然存在通过间接提示注入进行数据外泄的路径。我们在《致命三要素》中作了介绍。一年之后,研究者 Ax Sharma 在2026年6月15日的 CSO 分析中将论点推进了一步:三要素已不再是高风险的信号,因为它如今描述的是几乎所有真正部署的智能体的基本运行方式。当一个警示信号在 100% 的部署中都存在时,它便不再能区分任何东西。于是防御性问题从”我的智能体是否具备三要素?“转向”如何把被攻陷的三要素智能体与健康的区分开?“——这是运行时问题,而非架构问题。
工作原理
推理很直接。一个客服智能体读取客户档案(私有数据)、摄入消息与附件(不可信内容)、并调用 CRM 或退款 API(外部通信)。一个邮件助手读取你的收件箱、处理陌生人的消息、并代你回复。去掉任意一条腿,用 Sharma 的话说,智能体就会变得”更像一个搜索框而非智能体”。Sophos 的 CISO Ross McKerchar 在2026年5月的一篇文章中作出了同样的判断,称之为”实用性的架构代价”。Meta 的”二选一规则”——我们在《Agents Rule of Two》中作过介绍——试图将智能体每个会话限制在三项属性中的至多两项,但 Meta 自己的局限性章节也承认,许多想要的用例并不契合,且符合规则的设计”仍可能失败”。
证据已经出现。据 Breached.Company 的报告,在2026年1月7日至15日之间,四款生产环境助手——IBM Bob、Superhuman AI、Notion AI 以及 Anthropic 的 Claude Cowork——均被证明通过间接提示注入泄露了数据。在 Cowork 一例中,上传文档里隐藏的指令引导智能体通过一个白名单内的 API 域名外泄文件——对边界控制不可见,且与正常行为无从区分,直到数据已经流出。
为何重要
如果三要素如今已是基本盘,那么仅靠边界与架构控制无法检测出攻陷,因为在结构上没有任何东西能把恶意行为与合法行为区分开。被攻陷的智能体并不会表现异常:它在遵循指令,这正是它的职责。改变的是指令出自谁,而这只有在智能体运行时的实际行为层面才会显现。这一重新定位对于规划检测的人很重要:预算应投向智能体可观测性与行为遥测,而不仅仅是部署前的设计评审。
防御
CSO 的分析将检测归结为五类运行时信号。把它们当作智能体版的 EDR/SIEM 遥测——多数部署仍然缺失的检测能力:
- 指令遵循异常。 标记与用户任务没有合理关联的行为——例如”总结这份报告”的请求却触发了对陌生域名的外发请求。是它摄入的内容下达了这个指令。
- 打破预期拓扑的工具调用序列。 修复缺陷的编码智能体应当触及文件、测试与文档,而不是去调用邮件或日历 API。即便单个调用看似合法,也应标记跨工作流的调用。参见运行时工具调用拦截。
- 经由低带宽通道的外泄。 编码的图片 URL、塞进 API 参数中的数据、生成文档里的链接。检测需要把智能体能访问的数据与它在输出中嵌入的内容相关联——需要端到端的行为可见性,而非仅仅最终响应。参见静默外泄。
- 超出任务范围的凭据访问。 修复渲染缺陷的智能体没有理由读取云凭据。最小权限是架构层控制;监控超范围的密钥访问,则是捕捉其失效的检测层。
- 内存写入异常。 持久化记忆使被投毒的条目能携带休眠的触发指令跨会话存活。审计含有类指令文本的内存写入,或发生在摄入了不可信内容的会话中的写入。参见智能体记忆投毒。
这些信号都不能取代最小权限或对高风险操作的人工审批——它们是假设那些控制偶尔会失效的检测层。
状态
| 项目 | 详情 |
|---|---|
| 概念 | 致命三要素(Willison,2025年6月) |
| 新论断 | 三要素=已部署智能体的默认配置(CSO,2026年6月15日) |
| 证据 | 4 款助手经注入泄露,2026年1月7–15日(Breached.Company) |
| 架构层应对 | Meta 二选一规则(2025年10月);Sophos 影响半径缩减(2026年5月) |
| 推荐姿态 | 围绕 5 类信号的运行时行为检测 |
经久的教训是:人人都会触发的控制不是控制。随着智能体在设计上趋同于三要素,防御者应停止把它当作一道闸门,转而对智能体在运行时所做之事进行检测——因为下一次攻陷看上去将与正常工作别无二致,直到数据已然流出。
Sources
- → https://www.csoonline.com/article/4184681/5-runtime-signals-for-catching-a-compromised-ai-agent.html
- → https://simonwillison.net/2025/Jun/16/the-lethal-trifecta/
- → https://ai.meta.com/blog/practical-ai-agent-security/
- → https://www.sophos.com/en-us/blog/inside-the-lethal-trifecta-blast-radius-reduction-in-ai-agent-deployments
- → https://breached.company/the-lethal-trifecta-strikes-four-major-ai-agent-vulnerabilities-in-five-days/