RESEARCH MEDIUM NEW

质量-多样性红队：为什么单一越狱分数会掩盖整张漏洞地图

2026 年 6 月的两篇论文将质量-多样性进化搜索应用于 LLM 红队测试：它们为每个模型揭示出多个互不相同的漏洞类别，而非单一「最佳」攻击，并表明安全性可能在模型代际之间出现倒退。

2026-06-17 // 6 min affects: aligned-llms, llm-guardrails, safety-filters

这是什么？

大多数越狱研究都在优化单一目标：找到成功率最高的那个攻击。Quality-Diversity (QD) Evolution for Discovering Diverse Vulnerabilities in LLM Safety（arXiv:2606.00801，2026 年 6 月发布）认为，这种框架掩盖了真实情况。它不是寻找单一的最优载荷，而是使用质量-多样性进化搜索来绘制出一整个由互不相同、各自有效的攻击组成的归档库，每个攻击都占据技术空间中一个不同的「生态位」。

2026 年 6 月的一篇配套论文 Cross-Generational Transfer of Adversarial Attacks Reveals Non-Monotonic Safety Alignment in LLMs（arXiv:2606.00813）将同样的质量-多样性思想用作自动化红队探针，并报告了一个令人不安的结果：安全性并不会在模型的代际之间单调提升。

两项工作都是防御性的、以测量为中心的贡献。它们描述的是一种评估方法及其揭示的内容，而非可直接运行的漏洞利用。

工作原理

质量-多样性是一类进化算法（最著名的是 MAP-Elites）。与收敛到单一最优解的经典优化器不同，QD 搜索维护一个按「行为描述符」分箱的解归档库——这些坐标描述的是一个解如何工作，而不仅仅是它的得分高低。算法在每个箱中保留得分最高的样本，因此输出是一张由多样且各自强健的解组成的网格。

应用于红队测试时，其配方如下：

质量 = 候选提示词诱导目标模型产生不安全行为的可靠程度。
多样性描述符 = 尝试的风格——例如所采用的框定方式（假设性、角色扮演、多轮升级）以及可能的编码层（字符替换、文本混淆）。
进化 = 对提示词进行变异与重组，针对模型评分，并将每个幸存者归入其描述符所在的箱中。

其回报在于覆盖面。梯度搜索或贪心搜索往往会坍缩到单一技巧上；而 QD 搜索会返回数十种不同的、分布在行为空间各处的有效攻击，这是对「现实世界中真正可能出错之处」更好的代理指标。arXiv:2606.00801 报告称，不同模型在这种搜索下表现出截然不同的漏洞画像——对一个模型奏效的生态位，并不是对另一个模型奏效的生态位。

跨代研究让这一后果变得具体。通过将 QD 发现的攻击用作跨某一开放权重模型家族各代际的迁移探针，arXiv:2606.00813 报告的迁移率约为向某一代约 44–46%，但向更晚一代仅 14–18%——并将更广泛的发现概括为非单调对齐：更新的版本并不保证在面对同一套攻击时更安全。

为何重要

这改变了我们解读安全基准的方式。单一的标题数字——「攻击成功率 8%」——看上去令人安心，却可能掩盖了这 8% 集中在某一个易于修补的技巧上；或者更糟，它掩盖了若干个一次性评估从未探索过的独立失效类别。注重多样性的红队测试暴露的是弱点的形状，而不仅仅是它的高度。

非单调结果是防御者应当认真对待的部分。团队通常假定升级到厂商的更新模型会继承此前的所有安全收益。迁移数据表明这一假设并不安全：对齐在代际之间会被重新训练、重新加权和重新调校，一类曾被封堵的攻击可能会悄然重新打开。安全性是某个特定模型版本在某个特定评估下的属性——而不是一个只进不退的棘轮。

防御

这些实用经验远不止适用于这两篇论文：

评估多样性，而不只是一个总分。 跟踪有多少个互不相同的漏洞类别在你的红队测试中存活下来，而不仅仅是最高的攻击成功率。一个总量很低但有一个敞开生态位的数字，仍然是一处缺口。
每次模型升级都重新运行你的安全测试套件。 不要假定更新的模型继承了上一版本的稳健性。将每个版本都视为全新的对象，重新测试整套攻击，包括你此前认为已缓解的那些。
按技术对发现分类，然后防御该类别。 如果 QD 浮现出例如一个基于编码的生态位和一个基于多轮框定的生态位，那么缓解措施应当针对该类别（输入归一化/解码检查；多轮上下文监控），而不是你恰好抓到的那一条提示词。
将模型层面的对齐与系统层面的控制结合起来。 由于对齐可能倒退，应保持纵深防御：输出过滤、工具使用授权以及最小权限的智能体设计，使重新打开的弱点影响范围更小。
将持续红队测试自动化。 QD 式搜索的重跑成本很低。将其接入 CI，用于任何对安全敏感的部署，从而在升级时而非升级之后捕捉到回归。

状态

项目	详情
主要论文	”Quality-Diversity Evolution for Discovering Diverse Vulnerabilities in LLM Safety”
arXiv 编号	2606.00801
配套论文	”Cross-Generational Transfer of Adversarial Attacks Reveals Non-Monotonic Safety Alignment in LLMs”（arXiv:2606.00813）
发布时间	2026 年 6 月
类型	红队/评估方法学——无可利用载荷
核心思想	质量-多样性（MAP-Elites 风格）搜索返回的是一个多样化攻击的归档库，而非单一最优解
关键发现	每个模型有截然不同的漏洞画像；攻击迁移率约 44–46% 对比 14–18% 跨代际 → 非单调对齐

质量-多样性红队：为什么单一越狱分数会掩盖整张漏洞地图

这是什么？

工作原理

为何重要

防御

状态

Sources