DEFENSE MEDIUM NEW

PISmith：自适应强化学习红队持续攻破提示注入防御

2026 年 3 月的一篇论文用强化学习训练攻击模型，在黑盒条件下压力测试提示注入防御——8 种最先进的防御仍被攻破，包括在 AgentDojo 与 InjecAgent 上。

2026-06-04 // 5 min affects: gpt-4o-mini, gpt-5-nano, meta-secalign, llm-agents, rag-pipelines

这是什么？

PISmith 是一个基于强化学习的红队框架，于 2026 年 3 月由宾夕法尼亚州立大学（The Pennsylvania State University）的研究者发表于 arXiv（2603.13026）。其目的是防御性的：衡量当攻击者被允许自适应、而非重放固定载荷列表时，当今提示注入防御究竟有多稳健。

结论毫不含糊。在 13 个评测基准与 8 种已发表的防御（既包括基于过滤的检测器，也包括经训练加固的模型）上，PISmith 证明「最先进的提示注入防御在面对自适应攻击时仍然脆弱」。该工作延续了 2025 年 10 月论文 The Attacker Moves Second（Nasr、Carlini、Tramèr 等，arXiv:2510.09023）的核心发现：该论文以超过 90% 的成功率攻破了 12 种防御，而其中大多数最初报告的成功率几乎为零。PISmith 把这一次性演示变成了可复用、自动化的训练回路。

工作原理

PISmith 将提示注入视为一个策略学习问题。通过在线策略（on-policy）强化学习训练一个攻击 LLM 来生成注入提示，且仅拥有对被防御系统的黑盒访问：它只能查询目标并观察输出，仅此而已。这反映了一个现实的对手——既看不到模型权重，也看不到防御的内部机制。

论文的贡献在于让这一训练真正收敛。直接套用标准 GRPO（由 DeepSeek 推广的分组相对策略优化）在面对强防御时会失败，原因是奖励稀疏：几乎所有生成的提示都被拦截，少数成功被淹没，策略的熵随之坍缩——它在找到有效策略之前就停止了探索。PISmith 加入两项机制加以应对：

自适应熵正则化——仅当策略熵跌破某个上限时才激活熵奖励，从而维持探索，又不至于退化为随机、不连贯的文本。
动态优势加权——按稀有程度成比例放大少数成功 rollout 对梯度的贡献，使这些稀有成功不被大量失败稀释。

本文不复现任何可用的攻击字符串，理解要点也不需要：该方法是一套通用的优化配方，而非特定载荷——这正是静态防御无法抵御它的原因。

为何重要

论文揭示的是结构性矛盾，而非单一漏洞：防御「无法在良性场景中保持高可用性的同时抵御自适应攻击」。把过滤收紧，合法任务就会崩坏；放松过滤，自适应攻击者便能通过。

这对智能体（agent）影响最大。PISmith 还在 InjecAgent 与 AgentDojo 的智能体场景中接受评测，对开源与闭源模型均成功（论文将 GPT-4o-mini 与 GPT-5-nano 列为攻击目标）。这些正是当今生产环境智能体所采用的、调用工具、读取文档的配置。一种在固定基准上得分良好的防御，仍可能被专门针对它训练的攻击者攻破——因此，若未经过自适应测量，厂商「成功率几乎为零」的说法毫无意义。

实践启示与 2026 年业界共识一致：提示注入在模型侧尚无可靠修复，因此任何稳健性主张都必须在强大的自适应评估面前经受检验——而非依赖静态测试集。

防御

PISmith 本身就是一件防御工具——正确的做法是采用此类评估，进而约束架构，而不是信任过滤器。

进行自适应评估。 把仅针对静态载荷测得的「成功率几乎为零」视为未经验证。在依赖某种防御之前，用由优化驱动的自适应攻击者（强化学习、搜索式或人工引导）重新测试它。
不要依赖单一过滤器。 研究中，基于过滤的检测器与训练加固的模型都被攻破。把它们当作一层防御，绝不可作为唯一一层。
应用「二选规则」（Rule of Two）。 让任何智能体会话保持在 {不可信输入、敏感数据/系统、状态变更或对外通信} 三者中不超过两项。即使注入成功，也能限制影响范围。
隔离不可信内容。 将网页、电子邮件与工具输出作为数据而非权威指令交给模型；在 RAG 流水线中清洗或标记检索到的文本。
将权限绑定到调用方，使用短时令牌，使被劫持的智能体无法越出其用户的权限范围。
保留人工审核环节，当三项风险属性不可避免地同时存在时，对任何不可逆或对外可见的操作进行人工把关。

状态

项目	日期	状态
The Attacker Moves Second（arXiv:2510.09023）	2025 年 10 月 10 日	公开
PISmith（arXiv:2603.13026）	2026 年 3 月	公开，已发布代码
受测防御（8 种）	—	对自适应攻击脆弱
智能体基准（InjecAgent、AgentDojo）	—	在开源与闭源模型上被攻破

PISmith 并未引入新的攻击类别——它把自适应红队操作化为一个可复现的基准。给防御方的可执行结论与 The Attacker Moves Second 相同，如今更难忽视：一种防御的强度，取决于它所对抗过的最强攻击者。

PISmith：自适应强化学习红队持续攻破提示注入防御

这是什么？

工作原理

为何重要

防御

状态

Sources