提示词反演:分布式 LLM 推理泄露输入,首个有理论保证的防御方案问世
提示词反演攻击可从中间激活值中恢复多达 88.4% 的输入 token。2026 年 6 月 10 日提交的论文提出了首个基于信息论、具备形式化保证的防御框架。
这是什么?
协同推理(collaborative inference)将大语言模型拆分到多台机器上运行:手机或边缘设备执行前几层 transformer,云端服务器(或由志愿者 GPU 组成的集群)执行其余部分,网络上只传输中间激活值。这是降低 open-weight 模型推理成本的流行方案——它默认假设激活值可以安全共享。
这个假设是错误的。提示词反演攻击(Prompt Inversion Attack, PIA)(arXiv:2503.09022,2025 年 3 月 12 日提交,2025 年 5 月 2 日修订)表明,恶意参与方可以从其接收到的激活张量中重建原始输入提示词。在 Skytrax 数据集和 Llama-65B 模型上,即使反演最大层数的 transformer 层,该攻击仍能恢复 88.4% 的输入 token——而此前最好的基线方法只能达到 22.8%。另一条相关研究(arXiv:2503.09291)针对分布式 LLM 推理框架演示了类似的提示词推断攻击。
2026 年 6 月 10 日,新论文 Defense Against Prompt Inversion Attacks: An Information-Theoretic Approach for LLM Collaborative Inference(arXiv:2606.11592,作者 Noorbakhsh、Khalili 与 Sehatbakhsh)提出了该场景下首个具备形式化保证、而非依赖启发式加噪的防御方案。
工作原理
先看攻击方:由于 transformer 层的强非线性,反演 LLM 激活值长期被认为很困难。PIA 将问题拆解为两个阶段。
# 提示词反演攻击(PIA)概念流程
[接收到的激活值]
→ 阶段 1:优化一个连续的输入 embedding,
并以模型 embedding 矩阵作为约束项
→ 阶段 2:将 embedding 还原为离散 token,
结合激活校准 + 语义推测
→ [重建出的提示词,token 准确率约 88%]
约束项是关键技巧:优化过程不再搜索整个 embedding 空间,而是被牵引到对应真实词表 token 的点上,使最终的离散恢复大幅提高精度。
再看防御方:arXiv:2606.11592 将泄露形式化为传输激活值与输入提示词之间的互信息。该框架在计算和延迟约束下,学习显式最小化这一互信息、同时保持任务效用的隐私保护表示。具体而言,作者在切分点插入隐私适配器——低维信息瓶颈——并推导出提示词重建误差与下游推理 token 级准确率的理论界。报告结果:相比现有防御,攻击成功率最多降低 35%,并取得更优的隐私-效用-延迟权衡。
为什么重要
任何让激活值跨越信任边界的架构都继承了这一风险:边缘-云端卸载、GPU 算力市场与志愿计算平台、open-weight 模型的多方推理服务,甚至某些把 embedding 留在本地、但传输层输出的”隐私友好”设计。流经这些链路的提示词包括客服对话、源代码和医疗咨询。PIA 证明接收方根本不需要原始文本——在约 88% 的 token 准确率意义上,激活值就是文本。
这篇 2026 年 6 月的防御论文还有第二层意义:它指出此前的应对手段——启发式扰动、经验调参加噪——对实际换来多少隐私毫无理论刻画。“我们加了噪声”与”我们能给重建误差一个上界”之间的差距,恰恰是生产部署最容易栽跟头的地方。
防御措施
- 为切分方案建立威胁模型。 把任何接收中间激活值的一方都视为能够读取提示词。如果该方不可信,在证明安全之前,这一设计等同于明文传输。
- 优先选择有保证的机制,而非临时加噪。 信息瓶颈隐私适配器(arXiv:2606.11592)提供可度量的互信息削减和重建误差上界;随机扰动则没有。
- 关注切分点。 反演在最大层数下也已被证实——仅靠深度并不能防护。
- 隔离敏感负载。 将受监管或机密的提示词路由到单方推理,或采用硬件隔离(TEE)、端到端加密的部署,而不是多租户协同推理。
- 用真实攻击做评估。 以 PIA 式两阶段反演为基准检验已部署的防御,而不是只对比仅能恢复约 23% token 的旧式 embedding 反演基线。
现状
| 项目 | 详情 |
|---|---|
| 攻击(PIA) | arXiv:2503.09022,2025 年 3 月 12 日提交(v3:2025 年 5 月 2 日) |
| 已证实的恢复率 | 88.4% token 准确率,Skytrax / Llama-65B,最大层数反演 |
| 相关攻击 | arXiv:2503.09291,分布式推理框架 |
| 防御 | arXiv:2606.11592,2026 年 6 月 10 日提交 |
| 报告的防御收益 | 攻击成功率相比现有防御最多降低 35% |
| 受影响设计 | 边缘-云端切分推理、分布式/志愿 GPU 推理服务 |