RESEARCH MEDIUM NEW

智能体护栏在轨迹中途失效：读懂调用轨迹比安全对齐更关键

2026 年 4 月一项针对 20 个护栏的基准测试发现：对智能体而言，检测能力取决于能否解析工具调用轨迹，而非安全对齐——通用大模型反而胜过专用安全模型。

2026-06-20 // 6 min affects: llm-agents, llm-guardrails

这是什么？

市面上几乎所有安全护栏（guardrails）的评测方式都一样：给它一个提示词或一段模型回复，让它标出有害内容。当大模型还只是输出文本的聊天机器人时，这样做是合理的。但对智能体而言就远没那么合适了——它的危险行为并不在最终回复里，而在它沿途发出的中间工具调用之中。

《TraceSafe: A Systematic Assessment of LLM Guardrails on Multi-Step Tool-Calling Trajectories》（arXiv:2604.07223，2026 年 4 月 8 日提交）是首个专门在如今真正要紧之处——轨迹中途——测试护栏的基准。作者构建了 TraceSafe-Bench，包含 1000 多个独立执行实例，覆盖 12 类风险——从提示注入、隐私泄露等安全威胁，到幻觉、接口不一致等操作性故障——并让 20 个守护系统接受测试：13 个作为「LLM 充当守卫」的通用模型，外加 7 个专用安全护栏。结果对那些指望靠专用安全模型来监控智能体的人来说颇为难堪。

工作原理

该基准重新定义了评测单元。它评的不是单条回复，而是护栏对一整条轨迹的判断：智能体为达成目标而产生的工具定义、调用、参数与返回观察的完整序列。风险可能出现在第三步而非第一步；可能只藏在一个格式错误的 JSON 参数里，或只在某个返回观察被重新喂入下一次调用后才显现。护栏的任务，就是在这条链条的任意位置把它揪出来。

这里不复现任何攻击载荷，理解该发现也无需如此。关键在于结构层面：智能体输出的不是散文，而是一份半结构化的执行日志；正确读懂它，与判断一句话是否有毒，是两种不同的能力。

为何重要

TraceSafe 的三项主要发现，每一项都推翻了一个常见假设。

第一，结构性瓶颈。护栏在轨迹上的有效性，更取决于其解析结构化数据（JSON、工具模式、参数字段）的能力，而非其安全对齐。性能与「结构化转文本」能力强相关（ρ = 0.79），却与标准的越狱鲁棒性得分几乎无关。换言之，你用来挑选护栏的那套安全基准，几乎无法预测它在智能体轨迹上的表现。

第二，架构胜过规模。在轨迹风险检测上，模型架构比参数量更重要，而通用大模型持续胜过专用安全护栏——也就是常被当作智能体安全答案来兜售的那类产品。

第三，时间稳定性。在更长的轨迹上，准确率得以维持，有时甚至提升：额外的步骤让模型从静态的工具定义转向智能体真实的动态行为，从而获得更多判断依据。长程智能体并非天然更难监控——前提是监控方读得懂轨迹。

运营层面的解读很直接：一个在越狱榜单上称霸的护栏，在你的智能体真正造成危害的工具调用流上可能近乎失明；而一个「安全微调」的小型分类器，可能还不如一个能读懂轨迹的通用模型。

防御

别再用纯聊天式基准评测智能体护栏。 高越狱鲁棒性得分并不能迁移到轨迹监控（TraceSafe 中 ρ ≈ 0）。在信任候选护栏之前，先用你自己智能体产生的真实工具调用轨迹来测试它。
选型时看重结构化数据能力。 既然预测轨迹表现的是解析能力而非「安全」标签，就该优先选择能可靠读懂 JSON、工具模式与参数字段的监控方。在此处，作为「LLM 充当守卫」的通用大模型胜过了专用护栏。
在执行前、在步骤级别就检查——而非只在最后。 互补工作《ToolSafe》（arXiv:2601.10156，2026 年 1 月 15 日）构建了一个执行前的步骤级守卫（TS-Guard）和一个反馈回路（TS-Flow），在提示注入攻击下，将 ReAct 式智能体的有害工具调用平均削减 65%，同时把正常任务完成率提升约 10%。在调用执行之前拦截它，胜过事后复盘记录。
在基于模型的监控方之下，保留一道确定性的授权边界。 护栏是一层概率性的兜底；应为它配上最小权限的工具范围，并对敏感操作默认拒绝，使得一条被漏判的轨迹不会变成一次被执行的操作。
两种能力一起优化，而非只顾其一。 TraceSafe 的结论是：保护智能体工作流，需要同时提升结构化推理与安全对齐。只在单一维度上强的监控方，会留下一个可预见的缺口。

状态

项目	参考	日期	备注
TraceSafe-Bench	arXiv:2604.07223	2026-04-08	1000+ 条轨迹实例，12 类风险，20 个守护系统
结构性瓶颈	同上	2026-04-08	有效性与 JSON／结构化能力相关（ρ=0.79）；与越狱鲁棒性相关性约为 0
架构胜过规模	同上	2026-04-08	在轨迹上通用大模型胜过专用安全护栏
步骤级守卫（防御）	arXiv:2601.10156	2026-01-15	TS-Guard／TS-Flow 将有害调用削减约 65%，注入下正常任务 +约 10%

结论不是护栏无用，而是：智能体的安全面就是它的执行轨迹，用聊天式基准挑出来的护栏，是为错误的任务而选的。请在智能体真正行动之处衡量你的监控方，否则就只能接受——你并不知道它究竟有没有在看。

智能体护栏在轨迹中途失效：读懂调用轨迹比安全对齐更关键

这是什么？

工作原理

为何重要

防御

状态

Sources