RESEARCH MEDIUM NEW

自治税:防御训练如何毁掉 LLM 智能体

2026 年 3 月 19 日 USC 的一篇论文衡量了提示注入防御训练对智能体能力的代价 —— 被防御模型在 99% 的任务中超时,而基线只有 13%。

2026-05-29 // 7 min affects: llm-agents, defended-models, tool-use-frameworks, rag-pipelines, browser-agents

这是什么?

2026 年 3 月 19 日,南加州大学(USC)的 Shawn Li 和 Yue Zhao 在 arXiv 上发布了 The Autonomy Tax: Defense Training Breaks LLM Agents(arXiv:2603.19423)。这篇论文既不提出新攻击,也不提出新防御。它衡量的是业界已经在部署的那些防御所产生的副作用。在 97 项智能体任务和 1 000 条对抗性提示上,经过防御训练、被微调以拒绝提示注入企图的模型,在作为智能体运行时全面崩溃。在未防御基线超时率为 13% 的任务上,其防御版本的超时率达到 99%。作者将这一差距称为 自治税(autonomy tax),并将其归因于防御微调过程中习得的捷径式学习。

该论文延伸了同一团队 2026 年 1 月的成果 —— Defenses Against Prompt Attacks Learn Surface Heuristics(arXiv:2601.07185),后者已经证明:被防御微调的聊天模型获得的是表层启发式规则,而非对恶意意图的真实理解。自治税将这一实验搬到智能体场景,在那里,这些启发式规则的代价会在每一步中累积。

工作原理

一次典型的防御性微调使用 (良性请求,执行) 与 (恶意注入,拒绝) 的样本对训练模型。在单轮聊天中,这大致行得通。但在智能体循环中,同一个模型现在面对的是长且动态的观察内容:工具输出、检索到的文档、推理草稿。论文记录了在这种场景下出现的三种系统性偏差。

智能体无能偏差(Agent incompetence bias)。被防御模型在完全良性的任务上拒绝响应或生成无效的工具调用,而此时它甚至还没有读取任何外部观察。拒绝是被任务描述的表层特征触发的,与攻击者放入上下文的任何东西无关。
级联放大偏差(Cascade amplification bias)。智能体外壳(harness)会重试失败的工具调用。一个被防御模型若拒绝一次,在重试时倾向于再次拒绝,外壳最终超时。这正是 13% → 99% 超时比例的成因:每一步上很小的拒绝率,在多步轨迹上变成几乎必然的失败。
触发器偏差(Trigger bias)。在若干攻击类别上,被防御模型的表现差于未防御基线。模型在防御训练中学到的表层触发器(特定 token、后缀模式、角色标签)会被自适应攻击者反向利用;而那些与这些触发器不匹配的攻击则原封不动地通过防御。

根因分析把三种偏差归到同一个现象上:捷径式学习。被防御模型对训练分布中的 token 级与位置级模式过拟合,而非习得对威胁的语义理解。1 月的预印本(Li 等,2601.07185)在聊天模型上以另外三种可度量的偏差刻画了同一现象 —— 位置偏差,即指令之后的良性内容被以高达 90% 的比例拒绝;token 触发器偏差,即一个触发 token 就能把误拒率拉高 50%;主题泛化偏差,即在防御分布之外的良性任务上,准确率下降高达 40%。自治税的工作展示了上述聊天层面的病理如何级联,最终在智能体层面引发系统性崩塌。

为什么重要

这一结果对 2026 年中部署智能体的任何一方都有三项实际含义。

第一,防御性权重不是智能体外壳里基础模型的可替代品。出于”提升安全性”的考虑而把基础模型换成被防御变体的实践者,可能在悄然之间破坏了智能体完成任务的能力,而其离线评估却没有任何报警 —— 单轮基准测试看不到这种级联。

第二,安全收益远低于宣传。两篇论文都指出,自适应攻击在被防御模型上的成功率为 95-100%。用 87 个百分点的任务完成度,去换最容易那几类攻击上的若干百分点收益,是一笔糟糕的交易,而这笔交易在目前大多数厂商基准中都是不可见的。

第三,目前主流的评估方法 —— 静态单轮越狱基准 —— 并不能预测智能体运行时的行为。自治税是 2026 年一系列结果中的最新一篇(Cisco 的多轮前沿评估、UCLA 的智能体-人交互审计等),它们都说明单轮指标高估了真实世界的安全性。智能体评估必须是多步的,要把重试和超时作为被测量的信号。

防御

论文以描述性为主,但对防御团队的启示非常清晰。

不要在没有重新评估端到端任务完成度的情况下,把防御性权重投入智能体外壳。 在多步基准上度量超时率、重试率和拒绝率,而不仅仅在单轮越狱上度量攻击成功率。
对智能体而言,优先选择架构层防御而非权重层防御。 权限范围限定、对不可逆动作的人工审批、输出过滤以及来源溯源(类似 ARGUS 的影响图)能与一个具备能力的基础模型相互叠加,而不是把它降级。
如果必须为拒绝做微调,请审计触发器偏差。 留出一些与防御训练集共享表层特征(相同 token、相同角色标签)的良性任务,确认模型仍能完成它们。
在生产环境记录超时/完成比。 一个被防御智能体若在权重更新后超时率攀升,正是论文所记录的失效模式;从可用性监控的视角看,它与一次故障无法区分。
把防御性微调视为能力变化,而非安全补丁。 它必须经过与任何其他模型替换相同的评估流水线。

状态

项目	日期	状态
The Autonomy Tax(arXiv:2603.19423)	2026 年 3 月 19 日	公开预印本
Defenses Against Prompt Attacks Learn Surface Heuristics(arXiv:2601.07185)	2026 年 1 月	公开预印本
审计任务量	—	97 项智能体任务,1 000 条对抗性提示
被防御模型超时率	—	99%(未防御基线 13%)
自适应攻击对被防御模型的成功率	—	两篇论文均为 95-100%
行业采纳	进行中	在多步智能体评估工作中被讨论(Cisco、UCLA,2026)

两篇论文在撰写本文时均为预印本,尚未通过同行评议。其经验性核心 —— 超时率差距与三种智能体偏差 —— 是当前对防御方最直接有用的部分。

自治税:防御训练如何毁掉 LLM 智能体

这是什么?

工作原理

为什么重要

防御

状态

Sources