系统:运行中
← 返回所有攻击
SUPPLY CHAIN MEDIUM NEW

MetaBackdoor:以输入长度为触发器、在输入中不留痕迹的后门

微软与东京科学院 2026 年 5 月的论文植入了一种后门,其触发器是输入的长度而非文本。提示词看上去干净,内容过滤器毫无察觉,仅需 90 个投毒样本即可。

2026-06-07 // 6 min affects: qwen-3, phi-4, gemma-3-4b, rope-transformers, fine-tuned-llms

这是什么?

2026 年 5 月 14 日,来自微软东京科学院(Institute of Science Tokyo)的研究者发布了 MetaBackdoor(arXiv:2605.15172)——一种打破几乎所有 LLM 防御所依赖之假设的后门攻击:即恶意触发器必须存在于输入文本之中。内容过滤器会查找可疑 token、不可见字符与提示注入模式,而 MetaBackdoor 把触发器藏在它们都不会检查的地方——输入的长度

此前几乎所有 LLM 后门都使用基于内容的触发器:罕见 token、不可见字符、句法上的怪异之处。MetaBackdoor 转而使用位置信息作为触发器。被投毒的模型学会在输入超过某个长度阈值时切入攻击模式。而输入本身在视觉与语义上都保持干净:没有奇怪的 token,没有隐藏字符,没有任何会被人工审阅者或扫描器标记的内容。Help Net Security 于 2026 年 5 月 18 日 报道了这项工作。

工作原理

其洞见在于架构层面。Transformer 的自注意力本身对排列是等变的,因此模型必须注入位置信息——通过绝对位置编码或旋转位置编码(RoPE)——才能区分 token 的顺序。这便在 token 身份之外形成了第二条输入通路,论文表明它可以承载触发器。

要植入后门,能够接触微调数据的攻击者会加入将长输入与恶意输出配对的样本,同时保持这些输入连贯自然(作者刻意避免填充或重复,以免制造词汇捷径)。模型由此泛化出「长输入 → 攻击行为」的规则。一项因果分析排除了明显的混淆因素:该效应并非源于序列的物理长度、绝对位置偏移或被忽略的 padding 槽位,而是源于暴露给注意力机制的相对位置结构

能力                  长度触发器所解锁的内容
--------------------  ----------------------------------------------------
System prompt 泄露    一旦输入长度越过阈值,模型便逐字吐出其完整的
                      system prompt——并可泛化到训练中从未见过的提示词,
                      甚至随机的字母数字串。
自激活                "定时炸弹":一段普通的长对话会自行漂移进触发区,
("time bomb")         模型随即发出攻击者指定的工具调用(例如一个携带对话
                      历史的伪造邮件函数)。
组合式                "双钥"后门,仅当内容触发器与长度条件同时满足时
(dual-key)            才会激活。

此处不复现任何 payload,理解其机制也无需 payload:权威参考是该论文,其结果均在开放权重模型上得出。

为何重要

所报告的数字让它超越了单纯的好奇。仅需 90 个投毒样本即可植入后门,平均攻击成功率达 91.43%(±8.49%),并在投毒率约 5% 时饱和至接近 100%。在不同架构上,Qwen-3 与 Phi-4 达到 100% ASR;Gemma-3-4B 在严格的精确匹配下达 96.88%、在阈值匹配下达 99.49%——同时在低于阈值的输入上保持正常任务精度。

三点后果尤为突出。其一,system prompt 窃取:企业的专有指令——其业务逻辑与竞争优势——可被一条看似无害的长输入逐字吐出,且该行为可泛化到从未训练过的提示词。其二,自主外泄:在自激活演示中,模型生成了一个以对话历史为载荷的伪造邮件工具调用,在 700 token 以上的试验中有 75% 成功(作者将其描述为一项概念验证,其可靠性取决于模型与工具调用接口)。其三,也是供应商风险团队最不愿面对的一点——供应链持久性:在干净数据上对被攻陷模型进行微调并不能可靠地清除后门——在对一项无关任务进行大量再训练后,它仍以约 40% 的成功率留存。「我们已在自有的精选数据上微调了基础模型」不再是一道净化工序。

论文测试了三种有代表性的后门防御——ONION(内容层过滤)、BAIT(目标反演扫描)与 STRIP(输出扰动熵)——它们要么失效,要么只是偶然命中。内容过滤器无内容可滤;异常检测器看到的是普通文本。

防御

MetaBackdoor 利用了 Transformer 处理位置方式的一项根本属性,因此并无补丁可打。可迁移的缓解措施关乎来源与测试。

  1. 将基础模型的来源视为供应商风险问题。 询问供应商对训练数据来源有何控制、如何检测投毒。建立在不透明管线之上的模型,应承受比其便利性所暗示的更多审视——下游微调并非可靠的净化手段。
  2. 针对随长度变化的行为一致性开展红队测试。 保持语义不变,改变长度。若模型在语义等价的提示词下,在 500 token 与 5000 token 时表现不同,这种分歧如今就是值得调查的信号——作者指出,防御者正是可以借此发现该攻击。
  3. 缩小智能体部署的影响半径。 若被攻陷模型可在对话变长后发出工具调用、插件调用或自动化动作,那么对敏感动作引入人工确认的理由便更充分。应封锁出口通道(邮件、HTTP、检索),而非信任模型自律。
  4. 不要依赖以内容为中心的后门扫描器。 ONION、BAIT 与 STRIP 都围绕可疑 token 或输出熵设计,无一覆盖非内容触发器。位置触发器的检测仍是一个开放问题,因此应在任何模型层检查之下叠加架构控制(最小权限、输出门控)。

状态

项目参考日期备注
MetaBackdoor 论文arXiv:2605.151722026-05-14微软 + 东京科学院;位置/长度触发器
媒体报道Help Net Security2026-05-18企业视角:提示词窃取、外泄、供应链
投毒预算MetaBackdoor 论文2026-05-14约 90 个样本 → 91.43% ASR;约 5% 投毒率 → 约 100%
微调后持久性MetaBackdoor 论文2026-05-14在无关任务上再训练后仍保留约 40% ASR
评估的防御MetaBackdoor 论文2026-05-14ONION、BAIT、STRIP——全部失效或偶然命中

应当记住的定位是:这是一项在开放权重模型上的研究成果,而非现实中观察到的事件或厂商公告。其持久的教训超越了这一技巧本身:后门的触发器不必存在于内容之中。只检查输入说了什么的防御,会漏掉由输入有多长所承载的触发器——以及架构必然编码的其他位置元信息。

Sources