DATA LEAK MEDIUM NEW

图像提示重建：从分布式 MLLM 的中间嵌入还原私密图像

2026 年 6 月的一篇论文表明，分布式多模态大模型推理链路中的被动参与者，仅凭其转发的中间嵌入即可重建用户的输入图像。黑盒、无需模型权重。

2026-06-21 // 5 min affects: gemma-3, phi-4-multimodal, qwen2.5-vl, llama-4-scout, petals

这是什么？

Image Prompt Reconstruction Attacks on Distributed MLLM Inference Frameworks（arXiv:2606.18710，[cs.CR]，2026 年 6 月 17 日发布，作者为上海交通大学与 MBZUAI 的研究者）描述了一种专属于多模态大模型（MLLM）分布式推理的隐私泄露。Petals、Cake 等框架，以及 Together.ai、Prime Intellect、Modal 等平台，会把一个模型切分到多台消费级机器上：每个参与者持有若干层，并把中间嵌入传给下一个参与者。论文的结论是：该链路中的任何参与者，仅凭其转发的中间嵌入，就能重建用户提交的输入图像。

这项工作是首次针对 MLLM 演示图像重建。此前的研究已表明，分布式文本大模型推理中交换的嵌入会泄露文本提示；本文把威胁扩展到视觉模态，而一幅图像所携带的个人细节远多于一段简短的文本提示。

工作原理

其威胁模型刻意设置得很弱，这正是其值得关注之处。攻击者是链路中一个诚实但好奇的参与者。攻击是黑盒的（无法访问模型权重或架构），且是被动的（从不干扰计算，只观察自己合法收到的嵌入）。除了作为分布式运行中的一台机器之外，无需任何额外权限。

攻击分为两个阶段。首先，图像嵌入提取步骤会在交织的中间表示中，把图像 token 与文本 token 分离开来。MLLM 会用稳定的特殊 token（例如 <start_of_image> / <end_of_image>）包裹视觉 token，攻击者据此定位这些锚点，从而隔离出图像嵌入。在论文实验中，该步骤在大多数层上达到接近 100% 的提取准确率。

基于提取出的嵌入，论文构建了两种互补的重建：

MPAA（Multi-resolution Patch Assembly Attack）——像素级重建。由于 MLLM 把图像切成固定大小的图块（patch），每个嵌入主要承载一个图块的信息；MPAA 逐块还原像素并拼接，再融合高、低分辨率两版草图以兼顾细节与结构。它在前几层效果最好，那里视觉细节仍然完整。
IEDA（Image Embedding-guided Diffusion Attack）——语义级重建。它把嵌入投影到语义空间，并用其引导扩散模型生成。当深层已合并或池化图块、细粒度细节丢失时，IEDA 更为稳健，即便无法还原精确像素，也能恢复场景内容。

作者在 Gemma 3、Phi 4 Multimodal、Qwen 2.5 VL 与 Llama 4 Scout 上评测，数据集包括 CelebA（人脸）、COCO Caption 与 CC3M。MPAA 在前几层给出高保真的像素重建；IEDA 在所有层、所有四个模型上都给出一致的语义重建。

为什么重要

分布式推理的卖点，是通过聚合不可信机器来低成本运行大模型——但聚合不可信机器恰恰就是风险所在。参与者之间传输的嵌入并不是不透明的。它们是用户输入的可逆编码，对图像而言，这一输入可能是一张人脸、一份文件、一张医学影像或一张截图。根据这项工作，一个向 Petals 式集群贡献 GPU 算力的参与者，便处于无需违反协议即可收割所有人输入图像的位置。

更深一层的启示超出本文本身：中间激活是敏感数据，而非安全的中间形态。 这是切分学习（split learning）反演与文本提示反演攻击在多模态上的回响。凡是模型在信任边界处被切开、原始隐藏状态跨网络传输之处，对端往往都能把它们反演回输入。

防御

把链路边界当作数据外泄边界来对待。 如果参与者之间互不信任，就应假定你传出的任何嵌入都可被反演回输入。把最能揭示输入的前几层——图像编码器与解码器的最初几层——保留在可信的第一方硬件上，只分发重建更难的深层。

不要传输原始隐藏状态。 针对文本对应问题的研究（arXiv:2606.11592，2026 年 6 月）探索了基于信息论的隐私保护表示，在保留任务效用的同时剥离可逆细节。学习式混淆、瓶颈（bottleneck）或对传输激活施加校准噪声，都会提高重建成本——代价是可度量的效用权衡，应当实测而非臆断。

保护信道与参与者。 对传输中的嵌入加密，并管控谁能加入推理集群；开放、无许可的中继池是该攻击的最坏情形。对高敏感工作负载，应在可信执行环境（TEE）中推理，或将其保留在单租户基础设施上，而非共享的分布式框架。

最小化模型所见。 泄露的是输入图像。在任务允许时，于提交前对个人区域做遮挡或裁剪，并尽量不要让人脸、身份证件或医学影像经过多方推理。

状态

项目	详情
来源	arXiv:2606.18710 [cs.CR]，2026 年 6 月 17 日
类别	被动、黑盒的图像提示重建（隐私 / 数据泄露）
场景	分布式 MLLM 推理（Petals / Cake 式分层切分）
攻击者	转发中间嵌入的诚实但好奇的参与者
方法	嵌入提取（约 100% 准确）→ MPAA（像素）+ IEDA（语义）
测试对象	Gemma 3、Phi 4 Multimodal、Qwen 2.5 VL、Llama 4 Scout
状态	研究披露；无特定产品 CVE；防御在设计层面

图像提示重建：从分布式 MLLM 的中间嵌入还原私密图像

这是什么？

工作原理

为什么重要

防御

状态

Sources