SUPPLY CHAIN MEDIUM NEW

MetaBackdoor：以输入长度为触发器、在输入中不留痕迹的后门

微软与东京科学院 2026 年 5 月的论文植入了一种后门，其触发器是输入的长度而非文本。提示词看上去干净，内容过滤器毫无察觉，仅需 90 个投毒样本即可。

2026-06-07 // 6 min affects: qwen-3, phi-4, gemma-3-4b, rope-transformers, fine-tuned-llms

这是什么？

2026 年 5 月 14 日，来自微软与东京科学院（Institute of Science Tokyo）的研究者发布了 MetaBackdoor（arXiv:2605.15172）——一种打破几乎所有 LLM 防御所依赖之假设的后门攻击：即恶意触发器必须存在于输入文本之中。内容过滤器会查找可疑 token、不可见字符与提示注入模式，而 MetaBackdoor 把触发器藏在它们都不会检查的地方——输入的长度。

此前几乎所有 LLM 后门都使用基于内容的触发器：罕见 token、不可见字符、句法上的怪异之处。MetaBackdoor 转而使用位置信息作为触发器。被投毒的模型学会在输入超过某个长度阈值时切入攻击模式。而输入本身在视觉与语义上都保持干净：没有奇怪的 token，没有隐藏字符，没有任何会被人工审阅者或扫描器标记的内容。Help Net Security 于 2026 年 5 月 18 日报道了这项工作。

工作原理

其洞见在于架构层面。Transformer 的自注意力本身对排列是等变的，因此模型必须注入位置信息——通过绝对位置编码或旋转位置编码（RoPE）——才能区分 token 的顺序。这便在 token 身份之外形成了第二条输入通路，论文表明它可以承载触发器。

要植入后门，能够接触微调数据的攻击者会加入将长输入与恶意输出配对的样本，同时保持这些输入连贯自然（作者刻意避免填充或重复，以免制造词汇捷径）。模型由此泛化出「长输入 → 攻击行为」的规则。一项因果分析排除了明显的混淆因素：该效应并非源于序列的物理长度、绝对位置偏移或被忽略的 padding 槽位，而是源于暴露给注意力机制的相对位置结构。

能力                  长度触发器所解锁的内容
--------------------  ----------------------------------------------------
System prompt 泄露    一旦输入长度越过阈值，模型便逐字吐出其完整的
                      system prompt——并可泛化到训练中从未见过的提示词，
                      甚至随机的字母数字串。
自激活                "定时炸弹"：一段普通的长对话会自行漂移进触发区，
("time bomb")         模型随即发出攻击者指定的工具调用（例如一个携带对话
                      历史的伪造邮件函数）。
组合式                "双钥"后门，仅当内容触发器与长度条件同时满足时
(dual-key)            才会激活。

此处不复现任何 payload，理解其机制也无需 payload：权威参考是该论文，其结果均在开放权重模型上得出。

为何重要

所报告的数字让它超越了单纯的好奇。仅需 90 个投毒样本即可植入后门，平均攻击成功率达 91.43%（±8.49%），并在投毒率约 5% 时饱和至接近 100%。在不同架构上，Qwen-3 与 Phi-4 达到 100% ASR；Gemma-3-4B 在严格的精确匹配下达 96.88%、在阈值匹配下达 99.49%——同时在低于阈值的输入上保持正常任务精度。

三点后果尤为突出。其一，system prompt 窃取：企业的专有指令——其业务逻辑与竞争优势——可被一条看似无害的长输入逐字吐出，且该行为可泛化到从未训练过的提示词。其二，自主外泄：在自激活演示中，模型生成了一个以对话历史为载荷的伪造邮件工具调用，在 700 token 以上的试验中有 75% 成功（作者将其描述为一项概念验证，其可靠性取决于模型与工具调用接口）。其三，也是供应商风险团队最不愿面对的一点——供应链持久性：在干净数据上对被攻陷模型进行微调并不能可靠地清除后门——在对一项无关任务进行大量再训练后，它仍以约 40% 的成功率留存。「我们已在自有的精选数据上微调了基础模型」不再是一道净化工序。

论文测试了三种有代表性的后门防御——ONION（内容层过滤）、BAIT（目标反演扫描）与 STRIP（输出扰动熵）——它们要么失效，要么只是偶然命中。内容过滤器无内容可滤；异常检测器看到的是普通文本。

防御

MetaBackdoor 利用了 Transformer 处理位置方式的一项根本属性，因此并无补丁可打。可迁移的缓解措施关乎来源与测试。

将基础模型的来源视为供应商风险问题。 询问供应商对训练数据来源有何控制、如何检测投毒。建立在不透明管线之上的模型，应承受比其便利性所暗示的更多审视——下游微调并非可靠的净化手段。
针对随长度变化的行为一致性开展红队测试。 保持语义不变，改变长度。若模型在语义等价的提示词下，在 500 token 与 5000 token 时表现不同，这种分歧如今就是值得调查的信号——作者指出，防御者正是可以借此发现该攻击。
缩小智能体部署的影响半径。 若被攻陷模型可在对话变长后发出工具调用、插件调用或自动化动作，那么对敏感动作引入人工确认的理由便更充分。应封锁出口通道（邮件、HTTP、检索），而非信任模型自律。
不要依赖以内容为中心的后门扫描器。 ONION、BAIT 与 STRIP 都围绕可疑 token 或输出熵设计，无一覆盖非内容触发器。位置触发器的检测仍是一个开放问题，因此应在任何模型层检查之下叠加架构控制（最小权限、输出门控）。

状态

项目	参考	日期	备注
MetaBackdoor 论文	arXiv:2605.15172	2026-05-14	微软 + 东京科学院；位置/长度触发器
媒体报道	Help Net Security	2026-05-18	企业视角：提示词窃取、外泄、供应链
投毒预算	MetaBackdoor 论文	2026-05-14	约 90 个样本 → 91.43% ASR；约 5% 投毒率 → 约 100%
微调后持久性	MetaBackdoor 论文	2026-05-14	在无关任务上再训练后仍保留约 40% ASR
评估的防御	MetaBackdoor 论文	2026-05-14	ONION、BAIT、STRIP——全部失效或偶然命中

应当记住的定位是：这是一项在开放权重模型上的研究成果，而非现实中观察到的事件或厂商公告。其持久的教训超越了这一技巧本身：后门的触发器不必存在于内容之中。只检查输入说了什么的防御，会漏掉由输入有多长所承载的触发器——以及架构必然编码的其他位置元信息。

MetaBackdoor：以输入长度为触发器、在输入中不留痕迹的后门

这是什么？

工作原理

为何重要

防御

状态

Sources