DATA LEAK MEDIUM NEW

提示词反演：分布式 LLM 推理泄露输入，首个有理论保证的防御方案问世

提示词反演攻击可从中间激活值中恢复多达 88.4% 的输入 token。2026 年 6 月 10 日提交的论文提出了首个基于信息论、具备形式化保证的防御框架。

2026-06-12 // 6 min affects: llama-65b, open-weight LLMs, edge-cloud inference, distributed inference platforms

这是什么？

协同推理（collaborative inference）将大语言模型拆分到多台机器上运行：手机或边缘设备执行前几层 transformer，云端服务器（或由志愿者 GPU 组成的集群）执行其余部分，网络上只传输中间激活值。这是降低 open-weight 模型推理成本的流行方案——它默认假设激活值可以安全共享。

这个假设是错误的。提示词反演攻击（Prompt Inversion Attack, PIA）（arXiv:2503.09022，2025 年 3 月 12 日提交，2025 年 5 月 2 日修订）表明，恶意参与方可以从其接收到的激活张量中重建原始输入提示词。在 Skytrax 数据集和 Llama-65B 模型上，即使反演最大层数的 transformer 层，该攻击仍能恢复 88.4% 的输入 token——而此前最好的基线方法只能达到 22.8%。另一条相关研究（arXiv:2503.09291）针对分布式 LLM 推理框架演示了类似的提示词推断攻击。

2026 年 6 月 10 日，新论文 Defense Against Prompt Inversion Attacks: An Information-Theoretic Approach for LLM Collaborative Inference（arXiv:2606.11592，作者 Noorbakhsh、Khalili 与 Sehatbakhsh）提出了该场景下首个具备形式化保证、而非依赖启发式加噪的防御方案。

工作原理

先看攻击方：由于 transformer 层的强非线性，反演 LLM 激活值长期被认为很困难。PIA 将问题拆解为两个阶段。

# 提示词反演攻击（PIA）概念流程
[接收到的激活值]
   → 阶段 1：优化一个连续的输入 embedding，
             并以模型 embedding 矩阵作为约束项
   → 阶段 2：将 embedding 还原为离散 token，
             结合激活校准 + 语义推测
   → [重建出的提示词，token 准确率约 88%]

约束项是关键技巧：优化过程不再搜索整个 embedding 空间，而是被牵引到对应真实词表 token 的点上，使最终的离散恢复大幅提高精度。

再看防御方：arXiv:2606.11592 将泄露形式化为传输激活值与输入提示词之间的互信息。该框架在计算和延迟约束下，学习显式最小化这一互信息、同时保持任务效用的隐私保护表示。具体而言，作者在切分点插入隐私适配器——低维信息瓶颈——并推导出提示词重建误差与下游推理 token 级准确率的理论界。报告结果：相比现有防御，攻击成功率最多降低 35%，并取得更优的隐私-效用-延迟权衡。

为什么重要

任何让激活值跨越信任边界的架构都继承了这一风险：边缘-云端卸载、GPU 算力市场与志愿计算平台、open-weight 模型的多方推理服务，甚至某些把 embedding 留在本地、但传输层输出的”隐私友好”设计。流经这些链路的提示词包括客服对话、源代码和医疗咨询。PIA 证明接收方根本不需要原始文本——在约 88% 的 token 准确率意义上，激活值就是文本。

这篇 2026 年 6 月的防御论文还有第二层意义：它指出此前的应对手段——启发式扰动、经验调参加噪——对实际换来多少隐私毫无理论刻画。“我们加了噪声”与”我们能给重建误差一个上界”之间的差距，恰恰是生产部署最容易栽跟头的地方。

防御措施

为切分方案建立威胁模型。 把任何接收中间激活值的一方都视为能够读取提示词。如果该方不可信，在证明安全之前，这一设计等同于明文传输。
优先选择有保证的机制，而非临时加噪。 信息瓶颈隐私适配器（arXiv:2606.11592）提供可度量的互信息削减和重建误差上界；随机扰动则没有。
关注切分点。 反演在最大层数下也已被证实——仅靠深度并不能防护。
隔离敏感负载。 将受监管或机密的提示词路由到单方推理，或采用硬件隔离（TEE）、端到端加密的部署，而不是多租户协同推理。
用真实攻击做评估。 以 PIA 式两阶段反演为基准检验已部署的防御，而不是只对比仅能恢复约 23% token 的旧式 embedding 反演基线。

现状

项目	详情
攻击（PIA）	arXiv:2503.09022，2025 年 3 月 12 日提交（v3：2025 年 5 月 2 日）
已证实的恢复率	88.4% token 准确率，Skytrax / Llama-65B，最大层数反演
相关攻击	arXiv:2503.09291，分布式推理框架
防御	arXiv:2606.11592，2026 年 6 月 10 日提交
报告的防御收益	攻击成功率相比现有防御最多降低 35%
受影响设计	边缘-云端切分推理、分布式/志愿 GPU 推理服务

提示词反演：分布式 LLM 推理泄露输入，首个有理论保证的防御方案问世

这是什么？

工作原理

为什么重要

防御措施

现状

Sources