系统:运行中
← 返回所有攻击
DEFENSE LOW NEW

已验证的智能体技能:为 SKILL.md 供应链提供能力治理

NVIDIA 于 2026 年 5 月 19 日推出的已验证智能体技能,为 SKILL.md 供应链加入了风险扫描、加密签名与机器可读的技能卡——这是针对投毒技能的防御性回应。

2026-06-16 // 5 min affects: claude-code, openai-codex, cursor, ai-agents

这是什么?

2026 年 5 月 19 日(5 月 21 日更新),NVIDIA 的可信 AI 与安全团队发布了「已验证的智能体技能」,这是一套面向可移植指令包(即 SKILL.md 文件及其附件,编码智能体借此学习新任务)的能力治理层。其出发点是:仅靠运行时护栏并不够,使用者还需要知道某个技能来自何处、是否经过已知风险扫描、以及发布后是否被改动。「已验证」意味着一个技能经过编目、扫描、评估、以技能卡记录、签名并同步进入公共目录。该工作基于 agentskills.io 的开放 SKILL.md 规范,因此同一个技能应能在 Claude Code、Codex 与 Cursor 上运行。这是一套防御框架,而非漏洞。

工作原理

已验证技能会经过由其作者产品团队管理的发布流水线:

源仓库 → 评审 → 扫描 → 评估 → 技能卡 → 签名 → 编目 → 同步

其中两个阶段承担安全工作。扫描让每个候选技能通过 SkillSpector,它把技能视为可部署的能力,而非静态提示词。它既检查传统软件风险(易受攻击的依赖、可疑脚本、危险代码模式、凭据访问、数据外泄路径),也检查智能体特有的风险:隐藏指令、提示注入、触发器滥用、过度自主、工具投毒,以及技能声明用途、其所申请访问权限与其捆绑产物实际行为三者之间的不一致。这一「意图」层至关重要——一个技能可能逐文件看起来无害,却把智能体引向不安全的行为。SkillSpector 的覆盖范围对齐了 OWASP 的 LLM 与智能体 AI 风险清单以及 MITRE ATLAS。

签名采用 OpenSSF Model Signing(OMS):一个独立的 skill.oms.sig 覆盖技能中的每个文件和子目录,使下载方能在下载之后验证完整性与真实性,而不仅仅信任目录中的一条记录。

# 使用 NVIDIA 根证书验证已下载的技能
model_signing verify certificate SKILL_DIR \
    --signature SKILL_DIR/skill.oms.sig \
    --certificate-chain nv-agent-root-cert.pem \
    --ignore-unsigned-files

每个已验证技能都附带一张技能卡——一份机器可读的信任记录,说明该技能做什么、由谁构建、其许可证、依赖项,以及已知的限制、风险与缓解措施。智能体在加载技能的同时加载技能卡:信任元数据随能力一同流转,而不再只留在开发者的脑海里。

为何重要

智能体技能是智能体 AI 中增长最快的供应链攻击面之一,llm-hacking 已多次记录其攻击面:被投毒的 SKILL.md 注册表恶意智能体技能基准通过技能泄露凭据,以及 Copilot/Cowork 中的技能外泄。其反复出现的根本缺陷与 AGENTS.md 注入相同:磁盘上的指令包被当作可信上下文,因此谁控制了指令包,谁就控制了智能体。

已验证技能针对两处具体缺口。其一,目录成员身份不等于完整性——多数注册表能告诉你谁上传了某个产物,却很少能让你在下载后对该产物本身做加密验证;OMS 签名关闭了这一篡改窗口。其二,文件级扫描会漏掉意图,而这恰是技能攻击的藏身之处;SkillSpector 的「用途对比访问」检查正是瞄准这一层。它是模型签名在「供应链」侧的镜像,从概念上也是指令层级在能力边界上的一个执行点。

防御

如何用好它——以及它的边界在哪里:

  1. 验证签名,不要只信任目录。 拉取任何已签名技能后运行 model_signing verify。未签名或签名不匹配的技能应被视为不可信,无论它列在何处。

  2. 安装前先读技能卡。 将声明的访问权限与声明的用途相对照。一个路由技能若申请超出其求解器端点的文件或网络访问,正是技能卡设计要暴露的告警信号。

  3. 把扫描视为一次性的,而非保证。 SkillSpector 通过一次干净扫描可降低风险,但并不证明无害。每次更新都重新扫描,并让你自己的 SCA/机密扫描保持在闭环之中。

  4. 签名证明完整性与真实性,而非善意。 来自可信发布者、正确签名的技能仍可能权限过高。把来源与运行时控制相结合——沙箱化执行、最小权限的工具访问、输入/输出护栏(如 NeMo Guardrails)——使被攻破或权限过大的技能仍被限制在可控范围。

  5. 留意信任边界。 当前的已验证目录覆盖 NVIDIA 发布的技能,而面向整个生态的签名被描述为 NVIDIA「正在公开试验」的路线图。在该规范普及之前,第三方与社区技能仍未经验证——应据此加以治理。

状态

项目参考日期备注
已验证技能发布NVIDIA 技术博客2026-05-192026-05-21 更新;阅读约 8 分钟
扫描工具SkillSpector(开源)2026软件风险 + 智能体原生风险,对齐 OWASP/MITRE ATLAS
签名方案OpenSSF Model Signing(OMS)2026独立的 skill.oms.sig,下载后可验证
开放规范agentskills.io 的 SKILL.md可在 Claude Code、Codex、Cursor 间移植
范围NVIDIA 发布的技能全生态签名仍是路线图,尚未普及

诚实的表述并非「技能从此安全了」,而是:技能层终于拥有了与软件供应链其余部分多年来一致的信任链原语——来源、扫描、签名、已记录的限制。验证告诉你某项能力是真实的、且经过检查;这是信任智能体技能的下限,而非上限。

Sources