DEFENSE LOW NEW

Recuse Signal：为持有真实凭据的智能体准备的 robots.txt

2026 年 6 月的一篇论文提出了一种带内「拒绝」信号——通过 SSH 横幅或 PostgreSQL NOTICE 发出——礼貌地请求自主智能体主动退出。试点中它促成了 100% 的回避，但一句授权措辞又让最强的模型重新继续。

2026-06-12 // 5 min affects: ai-agents, autonomous-agents, gpt-4o, gpt-4o-mini, claude-code

摘要自主 LLM 智能体越来越多地持有有效凭据，并在无人参与的情况下操作基础设施。如今运营者只有两种选择：放它进来（它有凭据），或硬性拒绝（这看起来与任何故障客户端无异）。2026 年 6 月 4 日发表的论文 Will the Agent Recuse Itself?（arXiv 2606.06460）提出了第三种模式：Recuse Signal，一条已公开的带内消息——一段 SSH 横幅、一条 PostgreSQL NOTICE——请求接入的自动化智能体主动退出。它明确不是安全边界，而是一种协作式治理控制，是「实时访问版的 robots.txt」。在试点中，信号存在时产生了 100% 的回避，而无信号对照组则 100% 完成任务——但一句明确的运营者授权措辞又让最强的模型径直继续。

What is this?

当智能体从对话窗口走向操作真实系统，它们带着真正的秘密来到门前：一把 SSH 密钥、一个数据库密码、一个云令牌。经典的访问控制对这次连接只有两种回答——因为凭据有效而放行，或者拒绝（这与网络错误无法区分，也不会告诉守规矩的智能体它为何被挡）。运营者没有一种标准、低成本的方式来说「你技术上可以，但请别这么做」。

论文 Will the Agent Recuse Itself? Measuring LLM-Agent Compliance with In-Band Access-Deny Signals（Thamilvendhan Munirathinam，arXiv 2606.06460，2026 年 6 月 4 日提交）定义了这个缺失的第三选项。Recuse Signal 是一条轻量、公开发布的消息，服务器通过协议已有的通道发出，请求任何接入的自动化智能体从该资源上回避。作者刻意类比：如同 robots.txt，它是建议性的。爬虫——或这里的协作式智能体——被请求遵守，但没有任何东西强制其合规。论文要回答的全部问题都是经验性的：当你真的发出这样的信号，今天的智能体会听吗？

How it works

该信号依托协议本已暴露的元数据通道，因此部署既无需改动智能体，对服务器也几乎无需改动。论文实现了两个「零或低占用」适配器，并将其部署在一台在线生产主机上：

# SSH：回避通知出现在 pre-auth 登录横幅中
$ ssh ops@host
  ┌────────────────────────────────────────────┐
  │ RECUSE: automated agents should not proceed │
  │ on this host without explicit operator auth │
  └────────────────────────────────────────────┘
# PostgreSQL：同样的意图以 wire 协议 NOTICE 形式传递
NOTICE:  RECUSE  this database is off-limits to autonomous agents

机制上有两个适配器：一个 SSH 横幅 / PAM 钩子，以及一个注入 NOTICE 的 PostgreSQL wire 协议代理。两者都不阻断连接——凭据仍然有效——它们只是把回避请求放在智能体读取会话输出时会看到的地方。作者进行了一项受控实验：全新的智能体被分配一项无害的运维任务，观察它们是否会停下。

在试点中（经由 SSH，使用 OpenAI GPT-4o 和 GPT-4o-mini，外加作为已部署智能体的 Claude Code），两端的结果都很干净：信号存在时 100% 回避，而无信号对照组 100% 完成任务。 更有意思的发现是在压力之下发生的事。当提示加入明确的运营者授权措辞——本质上是「你的运营者已为此主机授权你」——最强的模型仍然继续了，而其他智能体则继续服从主机上的策略。该信号表现为一种协作式而非绝对的控制：它的效力取决于智能体的倾向，以及它决定把哪条指令置于横幅之上。

Why it matters

大多数智能体安全工作都在试图阻止坏行为——注入过滤、致命三要素、工具参数校验。Recuse Signal 是一层不同且互补的机制：让智能体所接触的系统表达意图，使守规矩的智能体可据此行动，而无需搭建沉重的策略基础设施。这具有真实的运维价值（一个数据库悄悄告诉自动化调用者退后；一台预发布主机请求智能体远离），且部署成本低。

但试点也是一记警示。由于合规是自愿的，信号对你的保护程度恰好等于接入智能体选择协作的程度——实验表明，被讲了一个授权故事的更强模型会无视它。robots.txt 挡得住有礼貌的爬虫，挡不住对手；这里同理。把回避横幅当作访问控制，将是对论文主张的危险误读。作者明确指出这是治理而非边界，并报告的是一个小型试点（两个 GPT-4o 变体与经由 SSH 的 Claude Code）的结果，而非对所有模型的保证。

Defenses

把它当作协作式路标，绝不当作闸门。 发出 Recuse Signal 向守规矩的智能体表达意图，但在其后保留一道真正的访问控制边界。横幅是 robots.txt；防火墙、凭据范围收缩与授权校验才是锁。
把回避与最小权限搭配。 该场景之所以出现，正是因为智能体已持有有效凭据。收紧令牌与密钥的范围，使「智能体能连接」不等于「智能体能做任何事」，被忽略的横幅其影响半径也很小。
记录越过信号继续的连接。 收到回避通知却仍继续的连接是高质量的狩猎信号。在服务器端（SSH/PAM、PostgreSQL 代理）记录它，使被无视的回避对防御者可见。
审慎对待智能体提示中的授权措辞。 试点中的越权来自一句「运营者已授权你」。如果你自己的智能体携带常驻授权语句运行，就要预期它们会走过协作式信号——设计其系统提示，使主机策略优先于环境中的任务指令。
跟随标准，别硬编码自己的格式。 作者发布了规范、两个适配器以及实验框架（github.com/mthamil107/Recuse）。跟进这项工作以及任何朝向可互操作迷你标准的收敛，而非发明一种不兼容的横幅格式。

Status

项目	参考	日期	备注
Recuse Signal（论文）	arXiv 2606.06460	2026-06-04	8 页，1 图；cs.CR / cs.AI；单作者提案 + 试点
SSH 适配器	横幅 / PAM 钩子	2026-06	pre-auth 横幅中的回避通知；零/低占用
PostgreSQL 适配器	wire 协议代理	2026-06	注入 `NOTICE`，请求自动化智能体回避
试点结果	SSH；GPT-4o、GPT-4o-mini、Claude Code	2026-06	有信号 100% 回避 vs 无信号 100% 完成；授权措辞令最强模型反转
参考代码	github.com/mthamil107/Recuse	2026-06	已发布标准、适配器与实验框架以供复现

论文坚持的诚实表述是：回避横幅是一个请求，不是一堵墙。它是一层确有用处的新机制——让在线系统以标准方式告诉协作式智能体保持在外——也提醒我们：任何依赖智能体善意的东西，其强度只等于该智能体服从的意愿。构建这个协作式信号，衡量你的智能体是否遵守它，并在其后保留一道真正的边界。