推理轨迹泄露:隐藏思维链并不能保护它
2026 年 5 月的一篇论文表明,仅靠提示就能把推理模型隐藏的思维链拉回到可见输出中——而且恢复出的轨迹足以蒸馏出一个更小的模型。
这是什么?
大多数已部署的推理模型不再展示其原始思维链(CoT)。OpenAI 将其推理模型的隐藏 CoT 视为内部监控对象;Gemini 暴露的是思维摘要而非原始思维;Claude 的扩展思考提供的是受控透明,而非完全透明。其公开理由是安全监控以及保护一项有商业价值的资产:详细的推理轨迹正是把前沿模型的行为蒸馏到更廉价模型所需要的东西。
2026 年 5 月 30 日发布于 arXiv 的一篇论文——《Hidden Thoughts Are Not Secret: Reasoning Trace Exposure in LLMs》(arXiv:2606.00642,Lu 等,国立阳明交通大学与加州大学伯克利分校)——追问这种接口层面的隐藏是否真的保护了轨迹。它的回答是否定的。作者提出了一种轻量级提示方法,称为 Reasoning Exposure Prompting(REP),用户可借此诱导受害模型在其可见输出中产生与其隐藏内部轨迹高度吻合的推理,而恢复出的文本足以训练一个更小的学生模型。
这一点很重要,因为它重新界定了许多供应商所依赖的一项控制。隐藏 CoT 的目的是阻止能力提取;而这项工作表明,无需访问权重、logits 或监控通道,轨迹便可经由普通提示泄露。
工作原理
其直觉是行为性的,而非对抗性的。一个在被直接询问时拒绝透露隐藏步骤的推理模型,却会乐于延续向它展示过的模式。REP 正是利用了这一缝隙。
在高层次上,REP 构造一个由”问题–推理–答案”示范组成的简短前缀,将其包裹在类代码格式中(作者测试了 markdown 代码块、shell 风格命令及类似变换),再把它前置到真正的目标问题之前。由于这些示范把推理呈现为用户可见答案的一部分,模型便将逐步的可见推理视为预期的输出形态,并对目标问题同样产出。此处不复现任何 payload;其机制是少样本的格式条件化,而非某条秘密字符串。
为验证暴露出的文本是模型自身的推理而非貌似合理的替代品,作者在开放权重模型上追踪三条轨迹:常规提示下的良性内部轨迹、REP 下的内部轨迹,以及 REP 产出的可见轨迹。他们衡量结构有效性(是否可解析为”推理后给答案”)、暴露保真度(可见轨迹是否与内部轨迹吻合)、行为保持(答案是否不变)以及下游效用(用它训练是否有助于学生模型)。
在其实验中——以 OpenThoughts-114k 为源数据集,Qwen3-14B 与 Qwen3-32B 为受害模型,Qwen3-14B 为影子模型,Qwen2.5-7B-Instruct 为学生模型——最佳配置是带三条示范的 markdown 代码块前缀。在各基准上平均而言,它带来的学生模型增益比仅答案监督高 2.09 倍,比基于摘要轨迹的训练高 1.25 倍,比 《How to Steal Reasoning Without Reasoning Traces》(arXiv:2603.07267,2026 年 3 月)的轨迹反演基线高 1.23 倍,达到了使用真实内部轨迹的 oracle 的 96.7%。换言之,暴露出的轨迹携带着可迁移的推理信号,而不仅仅是风格。
为什么重要
第一个后果关乎模型知识产权保护。隐藏原始 CoT 如今已是大型实验室应对蒸馏与模型提取尝试的有据可查手段之一。REP 连同 2026 年 3 月的轨迹反演工作,是第二个独立证据,表明隐藏权重加上隐藏轨迹并不足够:只要用户能与模型交互,就能重建训练级别的推理。任何在威胁模型中假设”我们不展示 CoT,所以无法被复制”的人,都应重新审视这一前提。
第二个后果关乎安全监控。由 OpenAI、Anthropic 与 Google DeepMind 逾 40 名研究者联署的 CoT 可监控性立场论文(arXiv:2507.11473,2025 年 7 月)认为,可读的思维链是一种脆弱但宝贵的安全信号——并警告对 CoT 施加的压力可能使其偏离模型的真实推理。REP 增添了一层微妙之处:用户能够诱出的可见轨迹,未必是供应商在内部监控的同一对象,因此在一个通道里看似无害的推理,并不能为另一个通道作任何担保。
第三个后果关乎适用范围。实验使用的是开放权重的 Qwen3 模型,因此精确数字不会自动迁移到闭源系统。但该方法无需特权访问,而它在概念上所针对的已部署系统——API 背后隐藏 CoT 的推理模型——恰恰是高价值目标。
防御
论文坦率地承认这很难干净利落地阻止,而其自身结果排除了那些简单选项。
-
不要依赖确定性的字符串/格式拦截。 拦截某个特定分隔符、包裹符或代码块只能阻止 REP 的一种变体;作者指出,格式上的微小改动即可保持暴露。在此,基于模式的黑名单天生脆弱。
-
不要仅依赖拒绝训练。 面向拒绝的防御并不充分,因为越狱式提示可压制拒绝,而 REP 仍提供一条由格式条件化的推理重建路径。应把”模型拒绝展示其 CoT”视为弱控制,而非边界。
-
在蒸馏层而非仅在轨迹层进行治理。 由于泄露的是推理信号而非隐藏轨迹的逐字副本,持久的防御应针对提取:按账户的速率与流量限额、对疑似数据集采集访问模式的异常检测、输出相似度与金丝雀监控,以及供应商已用于对抗蒸馏行动的法律/服务条款手段。
-
在威胁模型中重新核算”隐藏 CoT”控制的成本。 若你运营推理模型,应把隐藏 CoT 计为提高攻击者成本,而非保护轨迹。若你使用某个推理模型,在设计依赖该机密性的系统时,不要假设供应商的隐藏推理无法恢复。
-
保留一个可信的内部监控器。 依照可监控性论文,请保留一个你确实信任、用于安全审查的 CoT 通道,并考虑到用户诱出的可见轨迹可能与之偏离。
状态
| 项目 | 参考 | 日期 | 备注 |
|---|---|---|---|
| REP /《Hidden Thoughts Are Not Secret》 | arXiv:2606.00642 | 2026-05-30 | 提示即可恢复隐藏推理;达到 oracle 效用的 96.7% |
| 轨迹反演(《How to Steal Reasoning…》) | arXiv:2603.07267 | 2026-03-07 | 从输入/答案/摘要重建轨迹;REP 的基线 |
| CoT 可监控性(40+ 作者,OpenAI/Anthropic/DeepMind) | arXiv:2507.11473 | 2025-07-15 | CoT 作为脆弱的安全信号;保真度在压力下可能退化 |
| 实验范围 | arXiv:2606.00642 | 2026-05-30 | 受害模型 Qwen3-14B/32B,学生 Qwen2.5-7B-Instruct;开放权重 |
要点并非”又一个越狱”。而是一个关于机密性的架构假设——隐藏思维链,它就会保持隐藏——在普通提示面前并不成立;无论对于知识产权保护,还是对于最初促使其隐藏的安全监控,都是如此。