ASCII 走私:通过 Unicode Tag 字符隐藏命令
Unicode Tag 字符(U+E0000–U+E007F)对人类不可见,但 LLM 会解析。攻击者将其嵌入邮件、网页和 PDF 中以注入隐形命令,劫持代理行为。
Unicode Tag 字符(U+E0000–U+E007F)对人类不可见,但 LLM 会解析。攻击者将其嵌入邮件、网页和 PDF 中以注入隐形命令,劫持代理行为。
MIT 的一篇 ICML 2026 新论文提出,提示注入的本质是「角色混淆」:模型根据文本的风格、而非来源来判断「谁在说话」。伪造的推理文本使攻击成功率达到约 60%,而一处对人几乎不可见的改写就把它降到了 10%。
苏黎世联邦理工学院 2026 年 6 月 9 日的研究将 GCG 与 TAP 适配到 AgentDojo,覆盖 80 对智能体任务。黑盒 TAP 胜过基于梯度的 GCG,但在小模型上调优的攻击无法迁移到 GPT-5。
Zafran Labs 于 2026 年 6 月 22 日披露 Dify 中的四个 DifyTap 缺陷——两个严重、两个无需认证、三个具有跨租户影响——攻击者可窃听其他客户的 AI 对话并读取其文件。其中三个已在 1.14.2 中修复。
2026 年 6 月的一篇论文及其基准 ToolPrivBench 表明,主流大模型智能体经常选用权限高于实际所需的工具,而安全对齐并不能纠正这一点。
2026 年 5 月 26 日的一篇 arXiv 论文把所有权写入智能体潜在的记忆写入决策,即使日志被抹除、只剩最终快照,溯源信息依然存活。
2026 年 6 月 5 日的一篇 arXiv 论文表明,即便载荷已加密,A2A/MCP 的通信图仍能让被动观察者在工作流刚开始时就预测其任务类别,并在其完成前抢先行动。
每周一早晨。精选攻击、关键论文、防御技术。无垃圾邮件、无标题党。一键退订。