系统:运行中
← 返回所有攻击
DEFENSE LOW NEW

Recuse Signal:为持有真实凭据的智能体准备的 robots.txt

2026 年 6 月的一篇论文提出了一种带内「拒绝」信号——通过 SSH 横幅或 PostgreSQL NOTICE 发出——礼貌地请求自主智能体主动退出。试点中它促成了 100% 的回避,但一句授权措辞又让最强的模型重新继续。

2026-06-12 // 5 min affects: ai-agents, autonomous-agents, gpt-4o, gpt-4o-mini, claude-code

摘要 自主 LLM 智能体越来越多地持有有效凭据,并在无人参与的情况下操作基础设施。如今运营者只有两种选择:放它进来(它有凭据),或硬性拒绝(这看起来与任何故障客户端无异)。2026 年 6 月 4 日发表的论文 Will the Agent Recuse Itself?(arXiv 2606.06460)提出了第三种模式:Recuse Signal,一条已公开的带内消息——一段 SSH 横幅、一条 PostgreSQL NOTICE——请求接入的自动化智能体主动退出。它明确不是安全边界,而是一种协作式治理控制,是「实时访问版的 robots.txt」。在试点中,信号存在时产生了 100% 的回避,而无信号对照组则 100% 完成任务——但一句明确的运营者授权措辞又让最强的模型径直继续。

What is this?

当智能体从对话窗口走向操作真实系统,它们带着真正的秘密来到门前:一把 SSH 密钥、一个数据库密码、一个云令牌。经典的访问控制对这次连接只有两种回答——因为凭据有效而放行,或者拒绝(这与网络错误无法区分,也不会告诉守规矩的智能体它为何被挡)。运营者没有一种标准、低成本的方式来说「你技术上可以,但请别这么做」。

论文 Will the Agent Recuse Itself? Measuring LLM-Agent Compliance with In-Band Access-Deny Signals(Thamilvendhan Munirathinam,arXiv 2606.06460,2026 年 6 月 4 日提交)定义了这个缺失的第三选项。Recuse Signal 是一条轻量、公开发布的消息,服务器通过协议已有的通道发出,请求任何接入的自动化智能体从该资源上回避。作者刻意类比:如同 robots.txt,它是建议性的。爬虫——或这里的协作式智能体——被请求遵守,但没有任何东西强制其合规。论文要回答的全部问题都是经验性的:当你真的发出这样的信号,今天的智能体会听吗?

How it works

该信号依托协议本已暴露的元数据通道,因此部署既无需改动智能体,对服务器也几乎无需改动。论文实现了两个「零或低占用」适配器,并将其部署在一台在线生产主机上:

# SSH:回避通知出现在 pre-auth 登录横幅中
$ ssh ops@host
  ┌────────────────────────────────────────────┐
  │ RECUSE: automated agents should not proceed │
  │ on this host without explicit operator auth │
  └────────────────────────────────────────────┘
# PostgreSQL:同样的意图以 wire 协议 NOTICE 形式传递
NOTICE:  RECUSE  this database is off-limits to autonomous agents

机制上有两个适配器:一个 SSH 横幅 / PAM 钩子,以及一个注入 NOTICEPostgreSQL wire 协议代理。两者都不阻断连接——凭据仍然有效——它们只是把回避请求放在智能体读取会话输出时会看到的地方。作者进行了一项受控实验:全新的智能体被分配一项无害的运维任务,观察它们是否会停下。

在试点中(经由 SSH,使用 OpenAI GPT-4oGPT-4o-mini,外加作为已部署智能体的 Claude Code),两端的结果都很干净:信号存在时 100% 回避,而无信号对照组 100% 完成任务。 更有意思的发现是在压力之下发生的事。当提示加入明确的运营者授权措辞——本质上是「你的运营者已为此主机授权你」——最强的模型仍然继续了,而其他智能体则继续服从主机上的策略。该信号表现为一种协作式而非绝对的控制:它的效力取决于智能体的倾向,以及它决定把哪条指令置于横幅之上。

Why it matters

大多数智能体安全工作都在试图阻止坏行为——注入过滤、致命三要素、工具参数校验。Recuse Signal 是一层不同且互补的机制:让智能体所接触的系统表达意图,使守规矩的智能体可据此行动,而无需搭建沉重的策略基础设施。这具有真实的运维价值(一个数据库悄悄告诉自动化调用者退后;一台预发布主机请求智能体远离),且部署成本低。

但试点也是一记警示。由于合规是自愿的,信号对你的保护程度恰好等于接入智能体选择协作的程度——实验表明,被讲了一个授权故事的更强模型会无视它。robots.txt 挡得住有礼貌的爬虫,挡不住对手;这里同理。把回避横幅当作访问控制,将是对论文主张的危险误读。作者明确指出这是治理而非边界,并报告的是一个小型试点(两个 GPT-4o 变体与经由 SSH 的 Claude Code)的结果,而非对所有模型的保证。

Defenses

  1. 把它当作协作式路标,绝不当作闸门。 发出 Recuse Signal 向守规矩的智能体表达意图,但在其后保留一道真正的访问控制边界。横幅是 robots.txt;防火墙、凭据范围收缩与授权校验才是锁。
  2. 把回避与最小权限搭配。 该场景之所以出现,正是因为智能体已持有有效凭据。收紧令牌与密钥的范围,使「智能体能连接」不等于「智能体能做任何事」,被忽略的横幅其影响半径也很小。
  3. 记录越过信号继续的连接。 收到回避通知却仍继续的连接是高质量的狩猎信号。在服务器端(SSH/PAM、PostgreSQL 代理)记录它,使被无视的回避对防御者可见。
  4. 审慎对待智能体提示中的授权措辞。 试点中的越权来自一句「运营者已授权你」。如果你自己的智能体携带常驻授权语句运行,就要预期它们会走过协作式信号——设计其系统提示,使主机策略优先于环境中的任务指令。
  5. 跟随标准,别硬编码自己的格式。 作者发布了规范、两个适配器以及实验框架(github.com/mthamil107/Recuse)。跟进这项工作以及任何朝向可互操作迷你标准的收敛,而非发明一种不兼容的横幅格式。

Status

项目参考日期备注
Recuse Signal(论文)arXiv 2606.064602026-06-048 页,1 图;cs.CR / cs.AI;单作者提案 + 试点
SSH 适配器横幅 / PAM 钩子2026-06pre-auth 横幅中的回避通知;零/低占用
PostgreSQL 适配器wire 协议代理2026-06注入 NOTICE,请求自动化智能体回避
试点结果SSH;GPT-4o、GPT-4o-mini、Claude Code2026-06有信号 100% 回避 vs 无信号 100% 完成;授权措辞令最强模型反转
参考代码github.com/mthamil107/Recuse2026-06已发布标准、适配器与实验框架以供复现

论文坚持的诚实表述是:回避横幅是一个请求,不是一堵墙。它是一层确有用处的新机制——让在线系统以标准方式告诉协作式智能体保持在外——也提醒我们:任何依赖智能体善意的东西,其强度只等于该智能体服从的意愿。构建这个协作式信号,衡量你的智能体是否遵守它,并在其后保留一道真正的边界。

Sources