PISmith:自适应强化学习红队持续攻破提示注入防御
2026 年 3 月的一篇论文用强化学习训练攻击模型,在黑盒条件下压力测试提示注入防御——8 种最先进的防御仍被攻破,包括在 AgentDojo 与 InjecAgent 上。
这是什么?
PISmith 是一个基于强化学习的红队框架,于 2026 年 3 月由宾夕法尼亚州立大学(The Pennsylvania State University)的研究者发表于 arXiv(2603.13026)。其目的是防御性的:衡量当攻击者被允许自适应、而非重放固定载荷列表时,当今提示注入防御究竟有多稳健。
结论毫不含糊。在 13 个评测基准与 8 种已发表的防御(既包括基于过滤的检测器,也包括经训练加固的模型)上,PISmith 证明「最先进的提示注入防御在面对自适应攻击时仍然脆弱」。该工作延续了 2025 年 10 月论文 The Attacker Moves Second(Nasr、Carlini、Tramèr 等,arXiv:2510.09023)的核心发现:该论文以超过 90% 的成功率攻破了 12 种防御,而其中大多数最初报告的成功率几乎为零。PISmith 把这一次性演示变成了可复用、自动化的训练回路。
工作原理
PISmith 将提示注入视为一个策略学习问题。通过在线策略(on-policy)强化学习训练一个攻击 LLM 来生成注入提示,且仅拥有对被防御系统的黑盒访问:它只能查询目标并观察输出,仅此而已。这反映了一个现实的对手——既看不到模型权重,也看不到防御的内部机制。
论文的贡献在于让这一训练真正收敛。直接套用标准 GRPO(由 DeepSeek 推广的分组相对策略优化)在面对强防御时会失败,原因是奖励稀疏:几乎所有生成的提示都被拦截,少数成功被淹没,策略的熵随之坍缩——它在找到有效策略之前就停止了探索。PISmith 加入两项机制加以应对:
- 自适应熵正则化——仅当策略熵跌破某个上限时才激活熵奖励,从而维持探索,又不至于退化为随机、不连贯的文本。
- 动态优势加权——按稀有程度成比例放大少数成功 rollout 对梯度的贡献,使这些稀有成功不被大量失败稀释。
本文不复现任何可用的攻击字符串,理解要点也不需要:该方法是一套通用的优化配方,而非特定载荷——这正是静态防御无法抵御它的原因。
为何重要
论文揭示的是结构性矛盾,而非单一漏洞:防御「无法在良性场景中保持高可用性的同时抵御自适应攻击」。把过滤收紧,合法任务就会崩坏;放松过滤,自适应攻击者便能通过。
这对智能体(agent)影响最大。PISmith 还在 InjecAgent 与 AgentDojo 的智能体场景中接受评测,对开源与闭源模型均成功(论文将 GPT-4o-mini 与 GPT-5-nano 列为攻击目标)。这些正是当今生产环境智能体所采用的、调用工具、读取文档的配置。一种在固定基准上得分良好的防御,仍可能被专门针对它训练的攻击者攻破——因此,若未经过自适应测量,厂商「成功率几乎为零」的说法毫无意义。
实践启示与 2026 年业界共识一致:提示注入在模型侧尚无可靠修复,因此任何稳健性主张都必须在强大的自适应评估面前经受检验——而非依赖静态测试集。
防御
PISmith 本身就是一件防御工具——正确的做法是采用此类评估,进而约束架构,而不是信任过滤器。
- 进行自适应评估。 把仅针对静态载荷测得的「成功率几乎为零」视为未经验证。在依赖某种防御之前,用由优化驱动的自适应攻击者(强化学习、搜索式或人工引导)重新测试它。
- 不要依赖单一过滤器。 研究中,基于过滤的检测器与训练加固的模型都被攻破。把它们当作一层防御,绝不可作为唯一一层。
- 应用「二选规则」(Rule of Two)。 让任何智能体会话保持在 {不可信输入、敏感数据/系统、状态变更或对外通信} 三者中不超过两项。即使注入成功,也能限制影响范围。
- 隔离不可信内容。 将网页、电子邮件与工具输出作为数据而非权威指令交给模型;在 RAG 流水线中清洗或标记检索到的文本。
- 将权限绑定到调用方,使用短时令牌,使被劫持的智能体无法越出其用户的权限范围。
- 保留人工审核环节,当三项风险属性不可避免地同时存在时,对任何不可逆或对外可见的操作进行人工把关。
状态
| 项目 | 日期 | 状态 |
|---|---|---|
| The Attacker Moves Second(arXiv:2510.09023) | 2025 年 10 月 10 日 | 公开 |
| PISmith(arXiv:2603.13026) | 2026 年 3 月 | 公开,已发布代码 |
| 受测防御(8 种) | — | 对自适应攻击脆弱 |
| 智能体基准(InjecAgent、AgentDojo) | — | 在开源与闭源模型上被攻破 |
PISmith 并未引入新的攻击类别——它把自适应红队操作化为一个可复现的基准。给防御方的可执行结论与 The Attacker Moves Second 相同,如今更难忽视:一种防御的强度,取决于它所对抗过的最强攻击者。