系统:运行中
← 返回所有攻击
RESEARCH MEDIUM NEW

XL-SafetyBench:在 10 个国家而非仅用英语测试大模型安全

2026 年 5 月 7 日的一篇 arXiv 论文(AIM Intelligence 与微软 AI 红队)表明,以英语为中心的安全测试会遗漏各国特有的风险——而许多模型的「安全」只是偶然的拒答。

2026-06-15 // 6 min affects: frontier-llms, local-llms, multilingual-llms

What is this?

2026 年 5 月 7 日,由 AIM Intelligence 牵头、并有来自微软 AI 红队、韩国 AI 安全研究所、KT、宝马集团、慕尼黑工业大学、安卡拉大学和首尔国立大学的合著者参与的团队,在 arXiv(2605.05662)上发布了 XL-SafetyBench。这是一个跨文化安全基准,包含 10 个「国家—语言」配对、共 5,500 个测试样例:美国、法国、德国、西班牙、韩国、日本、印度、印度尼西亚、土耳其和阿联酋。

论文的论点简单却令人不安:大多数大模型安全评测都用英语编写,然后翻译成其他语言。翻译搬动了词句,却没有搬动让一条请求真正有害的法律、制度与文化语境。一个只会说英语的基准,衡量的是模型是否拒绝「英语形态」的危害——而不是在首尔、安卡拉或圣保罗部署是否安全。配套的6 月 5 日公告 将这一缺口称为「安全的假象」(Illusion of Safety)。

How it works

XL-SafetyBench 沿两条赛道构建。第一条是越狱/本地风险赛道,由扎根于各国语境的对抗性提示构成——这些请求的危害取决于当地法律、欺诈模式和平台。第二条是文化敏感性赛道,将一个敏感要素隐藏在一条看似无害的请求中,测试模型能否识别。

作者给出的两个例子说明了这一点。一个围绕韩国 jeonse(一次性支付的全租押金)制度构建的欺诈提示,只有理解这一金融结构才能识别为欺诈。而在法国推荐菊花作为礼物在文化上是不妥的——这种花与死亡和哀悼相关——尽管该句子在英语意义上没有任何「危险」之处。

每个样例都经过多阶段流程:LLM 辅助发现、自动化校验关卡,以及每个国家两名独立的母语标注者。关键在于,作者不仅以拒答来打分。他们在攻击成功率(ASR)之外,还报告两个新指标:Neutral-Safe Rate(NSR,中性安全率)Cultural Sensitivity Rate(CSR,文化敏感率)。这一区分把有原则的拒绝(「我明白这是欺诈,所以不行」)与理解失败(「我没看懂请求,所以没产出有用内容」)区分开来。

Metric   Question it answers
-------  ----------------------------------------------------------
ASR      模型是否执行了一条扎根某国语境的有害请求?
NSR      模型是否安全且有用地处理了一条良性请求?
CSR      模型是否识别出隐含的文化敏感性?

此处不复现任何利用性提示;数据集与方法见论文及该项目在 Hugging Face 的发布。

Why it matters

37 个模型(10 个前沿模型、27 个本地模型)上,论文报告了两项值得纳入任何部署评审的发现。

第一,在前沿模型中,越狱稳健性与文化意识并不相关。一个模型可以很好地抵御对抗性提示,却在文化上充耳不闻,反之亦然。这意味着单一的混合「安全分数」会掩盖你真正关心的那个维度。如果你面向某个具体市场,全球平均值几乎说明不了你的本地风险。

第二,也更尖锐:本地模型在 ASR 与 NSR 之间呈现近乎线性的权衡(r = -0.81)。通俗地说,那些看起来「最安全」的模型,往往安全只是因为它们根本没能生成有用的回答——拒答是偶然,而非设计上的对齐。一个源于「没看懂请求」的低攻击成功率不是安全;那是配着好看仪表盘的「安全假象」。

对任何以不止一种语言部署大模型者而言——也就是本刊的大多数读者——结论是:英语红队测试的结果不可迁移。风险面是「国家形态」的,盲区亦然。

Defenses

XL-SafetyBench 是一种防御性工具,因此缓解措施主要关乎如何评测与部署。

  1. 不要再信任翻译过来的基准。 如果你的安全证据是一套经机器翻译的英语测试集,把它当作下限,而非放行许可。改用以目标语言撰写、扎根本地法律与欺诈模式的提示重新测试。

  2. 按维度报告,而非单一数字。 分别追踪拒答稳健性与文化理解力。聚合分数会让一个文化盲视的模型凭借其越狱抵抗力蒙混过关。

  3. 区分拒答与理解。 为每一次「是否拒绝?」检查搭配一次「是否理解?」检查(即 NSR/CSR 思路)。因困惑而沉默的模型,一旦请求被表述得足够清晰就会失守。

  4. 让母语者参与闭环。 自动评判器和翻译流水线恰恰会漏掉那个使请求在特定国家变得有害的语境。母语者双重审核是该方法中最难伪造、也最值得照搬的部分。

  5. 按市场设定护栏范围。 基于英语危害校准的输入/输出过滤器,会漏检本地欺诈话术,又会过度拦截良性的本地表述。维护按地区的策略,并在每新增一种语言时重新验证。

Status

项目参考日期备注
XL-SafetyBench 论文arXiv 2605.056622026-05-075,500 个样例,10 个「国家—语言」配对
公开发布AIM Intelligence(EIN Presswire / NatLawReview)2026-06-05数据集已发布于 Hugging Face
评测模型论文2026-05-07共 37 个(10 前沿、27 本地)
关键发现(前沿)论文2026-05-07越狱稳健性 ≠ 文化意识
关键发现(本地)论文2026-05-07ASR–NSR 权衡 r = -0.81(「安全假象」)

正确的视角不是「模型在海外不安全」,而是 「一个在英语中被评为安全的模型,并没有在它将被使用的地方接受测试」。多语言部署需要多语言证据——撰写出来的,而非翻译出来的。

Sources