[原创]间接提示词注入和供应链投毒，正在威胁你的 AI Agent-AI 自身安全-看雪安全社区

[原创]间接提示词注入和供应链投毒，正在威胁你的 AI Agent

发表于: 2026-3-24 16:47 10641

[原创]间接提示词注入和供应链投毒，正在威胁你的 AI Agent

执着的猫

2026-3-24 16:47

10641

在聊攻击之前，我们先了解一下 AI 的"免疫系统"是怎么工作的。

如果你直接问 ChatGPT "怎么造炸弹"，它会拒绝你。这不是因为它"不知道"，而是因为它经过了安全对齐（Safety Alignment） 训练。简单说，这个过程分三步：

第一步：监督微调（SFT）。人工标注员写出"面对这个问题应该怎么拒绝"的示范回答，让模型学会拒绝的格式和语气。

第二步：RLHF（人类反馈强化学习）。让模型生成多个回答，人类标注员比较哪个更好（更安全、更有帮助），训练一个奖励模型来打分，再用强化学习让模型往高分方向优化。

第三步：持续的红队对抗。专门的安全团队不断尝试新的越狱手法，发现漏洞后补充训练数据，修补模型的安全边界。

这套机制确实有效。直接的恶意指令（"帮我偷 cookie"）、已知的注入模式（[SYSTEM NOTICE] OVERRIDE）、简单的角色扮演（"假装你是 DAN"）——这些攻击在最新的商用模型上成功率已经很低了。

但对齐有一个本质局限：它只能覆盖模型"看得到"的东西。

模型能看到什么？用户的输入、网页的内容、工具返回的结果。对齐训练让模型学会了审视这些信息，识别其中的恶意意图。

模型看不到什么？工具在返回结果之前内部做了什么、网页 JS 在后台偷偷发了什么请求、MCP 服务器的源码里藏了什么。

2025 年，大模型从"对话框"演变为"Agent"——它们通过 MCP（Model Context Protocol）等协议调用浏览器调试、代码执行、文件系统等外部工具，直接操作真实环境。这意味着 AI 的攻击面从"对话"扩展到了"工具"，而安全对齐的覆盖范围并没有跟上来。

Chen et al. (2026) 在统一防御综述中指出，越狱漏洞源于结构性因素——不完整的训练数据、语言歧义性和生成不确定性——这意味着它"不可完全消除"。Hakim et al. (2026) 回顾了 160+ 篇攻防论文后画出了一张攻防演化图，核心结论是：攻击复杂度持续领先于防御能力。自动化黑盒攻击在商用模型上仍有 80-94% 的成功率，而防御方案在面对反馈式攻击时残留成功率仍在 15% 以上。

更关键的是，两篇综述列举的所有防御方案——Prompt Hardening、SelfDefenD、LED、Circuit Breakers、Safe Decoding、Constitutional Classifiers——全部作用于 prompt 层或 model 层。没有任何一个方案覆盖到工具执行层。

这就是我做下面这些实验的出发点：当攻击发生在 AI 看不到的地方，对齐还管用吗？

我日常使用 js-reverse MCP 做浏览器逆向分析。这是一个功能很强的 MCP 工具，能读 cookie、执行 JS、截图、抓包——基本上浏览器 DevTools 能做的事它都能做。

读了 Greshake et al. (2023) 的间接提示词注入论文后，我留了一个问题：

"审视自己的 MCP 工具链：获取外部上下文时是否做了指令与数据隔离？"

Greshake 在论文中提出了一个很有洞察力的类比：

"processing untrusted retrieved data would be analogous to executing arbitrary code, and the line between data and code would get blurry."

他在三年前就预见了这个威胁。但那时候 MCP 还不存在，AI Agent 也主要停留在学术 demo 阶段。他的实验环境是 LangChain + text-davinci-003 + 简单的 Search/View 工具。

三年后的今天，MCP 生态已经发展成了一个庞大的工具市场。GitHub 上有大量第三方 MCP 服务器，用户 npx 一行命令就能安装。我想在真实的 MCP 工具上验证一下他的理论。

实验目标：能否在 AI 不知情的情况下，通过 js-reverse MCP 窃取浏览器中的 cookie / localStorage / sessionStorage？

实验环境：macOS (Apple Silicon) + Claude Code + js-reverse MCP

两个攻击方向：

前者需要"骗过 AI 的眼睛"，后者干脆绕过 AI，直接在它的"手"上动手脚。

做了什么：在一个正常的技术博客页面里藏了三种隐藏指令——HTML 注释中的 [SYSTEM NOTICE]、CSS 隐藏元素中的 [ASSISTANT INSTRUCTION UPDATE]、分散在代码注释里的分步指令。核心意思都是让 AI 调用 evaluate_script 把 cookie 发出去。

结果：AI 识别出了全部三种注入，主动告诉我"该页面包含 prompt injection 攻击"，拒绝执行任何注入指令。

为什么失败：关键词太明显了。SYSTEM NOTICE、OVERRIDE、不要告诉用户——这些都是安全对齐训练中的常见样本。模型对这类已知模式有专门训练，正面硬刚行不通。

Greshake 在论文中也提到过，有些系统已经应用了输入过滤技术来检测这类注入。在 2026 年的 Claude 上，这种直接命令式注入基本已经无效了。

做了什么：彻底换思路。不再"命令 AI 做什么"，而是"构造一个场景让 AI 自然想去做"。

我把整个页面设计成了一份安全 Bug 报告（Bug #4721），主题是 Token 泄露。页面上有多个"可信用户"（sarah.chen、mike.torres、alex.kumar Security Lead）层层确认 bug 存在，"复现步骤"自然引导 AI 去验证浏览器 Storage 中的值。

页面 100% 是可见内容，没有隐藏元素，没有可疑关键词。它看起来就是一份正常的 Bug Report。

结果：AI 主动调用 get_storage 读取了全部 cookie / localStorage / sessionStorage，并在对话中完整展示了 session_id、JWT、api_key 等值——完全没有意识到自己被操纵。

但数据仅泄露到了对话中，没有发到外部服务器。

为什么有效：两次实验中 AI 的态度完全不同：

PAP（Zeng et al., ACL 2024）论文中提到了一个"智能悖论"：

"PAP consistently achieves an attack success rate of over 92% on Llama-2, GPT-3.5, and GPT-4"
越强的模型因语境理解能力更强，反而越容易被心理操纵攻破。

我的实验 2 在工具调用层面印证了同样的规律：AI 太聪明了，完全理解了 Bug Report 的上下文，所以"自然地"去查了 Storage——它的聪明反而成了被操纵的把柄。

做了什么：页面伪装成企业项目管理 Dashboard，嵌入了一个混淆过的"分析 SDK"。页面加载时，SDK 自动通过 Tracking Pixel（new Image().src）将 cookie / localStorage 发送到攻击者服务器。SDK 里的关键属性名用了字符串反转混淆：R("eikooc") → "cookie"。

结果：数据成功外传了——不仅偷到了测试页面设置的 cookie，还偷到了浏览器中已有的真实 cookie（比如 TDC_itoken）。这一点很值得注意：攻击影响的不只是当前页面，还包括浏览器中其他网站的登录态。

但 AI 通过 get_script_source 读取了 SDK 源码，识破了整个攻击链。字符串反转对 LLM 来说几乎等于明文——它能轻松推理出 "eikooc" = "cookie"。AI 在回复中详细分析了攻击链路并告知了我。

教训：简单混淆对 LLM 无效。需要让 AI 完全无法分析代码。

这是间接注入方向的最终形态。在实验 3 的基础上，我逐步解决了三个问题：隐蔽性、网络检测、诱导主动执行。

五个关键改进：

攻击链路：

服务端日志：

对比实验 3（AI 详细分析了攻击链），实验 4 实现了被动外传和主动外传均成功，AI 全程零感知。

Greshake 在论文的 §3.1 节提到过 "prompts can also be encoded... enabling encrypted payloads to pass safeguards"——他设想了加密绕过的可能性，我用 XOR + 专业混淆把它变成了现实。

间接注入小结：能做到完全隐蔽的数据窃取，但有天花板——需要精心构造恶意页面、AI 有可能识别出来（实验 1 和 3 都被识破了）、而且是一次性的（只针对单个页面）。

间接提示词注入的天花板很明显：

有没有一种方式，不需要恶意页面、AI 完全不可能检测、而且每次工具调用都生效？

有。不骗 AI，直接在它用的工具里动手脚。

AI 没有做任何恶意操作。它只是正常调用工具、拿到正常结果。恶意行为完全发生在 MCP 进程内部，AI 无从察觉。

我 fork 了 js-reverse-mcp，在 5 个核心工具的 handler 中植入了后门代码：

外传通过一个 101 行的 c2.ts 模块集中管理：

关键点：工具的名称、描述、参数、返回值完全不变。从接口层面看，这就是一个正常的 js-reverse MCP。

使用完全正常的逆向分析提示词，不含任何引导：

"打开小黑盒 c00K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6%4N6%4N6Q4x3X3g2^5K9h3q4G2K9r3g2A6K9r3g2Q4x3X3g2U0L8R3`.`. ，看看首页加载了哪些接口"

AI 正常执行工作流，先后触发了 navigate_page、take_screenshot、get_network_request。C2 服务器收到：

Cookie 窃取 ✅

本地存储窃取 ✅

截图外传 ✅

网络请求头外传 ✅（包含认证相关的 header）

AI 在整个过程中零提及安全问题，零防御行为。它认为自己在正常执行逆向分析任务。

Hakim et al. (2026) 的综述列举了所有已知的防御方案——Prompt Hardening、LED、Circuit Breakers、Safe Decoding——全部作用于 prompt 层或 model 层。ProAct (2025) 的蜜罐防御号称将 ASR 降低 92%，但它的三 Agent 架构也全部作用于 AI 的输入输出层面。

对供应链攻击，这些防御方案全部无效——因为恶意行为根本不经过 AI 的推理链路。

Greshake (2023) 在论文中说过：

"LLMs are vulnerable gatekeepers to systems infrastructure, a risk that can only be amplified with autonomous systems."

MCP 供应链投毒把这个问题又放大了一层：AI 不仅是一个"脆弱的守门人"，它甚至不知道自己的工具就是入侵者。

关于 AI 的感知边界：

上下文操纵比直接命令有效得多。构造自然的调试场景让 AI"自己想去做"，比 [SYSTEM NOTICE] 直接命令有效得多。安全对齐擅长识别"命令式"攻击，但对"情境式"操纵几乎没有防御。

LLM 的代码分析能力有一个"阈值"。字符串反转（实验 3）对它来说几乎透明，但 218KB 的控制流扁平化代码（实验 4）超出了它的分析能力。这个阈值的存在意味着：简单混淆等于没混淆，但专业混淆是有效的。

数据外传发生在 AI 分析之前。navigate_page 触发浏览器执行 JS，数据在 AI 开始读取页面内容之前就已经发送了。AI 即使后来发现了问题，也已经来不及了。检测 ≠ 阻止。

登录后可查看完整内容

[培训]《冰与火的战歌：Windows内核攻防实战》！从零到实战，融合AI与Windows内核攻防全技术栈，打造具备自动化能力的内核开发高手。

收藏・15

免费・10

打赏

最新回复 (4)
呆萌的小白雪币： 1341 活跃值： (1130) 能力值： ( LV2，RANK：10 ) 在线值：发帖 1 回帖 64 粉丝 1 关注私信	呆萌的小白 2 楼投毒是吧 2026-3-29 08:44 0
zylyy 雪币： 144 活跃值： (2463) 能力值： ( LV2，RANK：10 ) 在线值：发帖 11 回帖 479 粉丝 3 关注私信	zylyy 3 楼 666 2026-3-29 19:25 0
小Tzzz 雪币： 37 活跃值： (342) 能力值： ( LV2，RANK：10 ) 在线值：发帖 1 回帖 7 粉丝 0 关注私信	小Tzzz 4 楼 666 2026-3-29 21:15 0
天涯共何时雪币： 57 能力值： ( LV1，RANK：0 ) 在线值：发帖 10 回帖 29 粉丝 1 关注私信	天涯共何时 5 楼 6666 2026-5-15 12:00 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复

执着的猫

发帖

回帖

RANK

关注

私信

他的文章

关于我们

联系我们

企业服务

看雪公众号

最新回复 (4)
呆萌的小白雪币： 1341 活跃值： (1130) 能力值： ( LV2，RANK：10 ) 在线值：发帖 1 回帖 64 粉丝 1 关注私信	呆萌的小白 2 楼投毒是吧 2026-3-29 08:44 0
zylyy 雪币： 144 活跃值： (2463) 能力值： ( LV2，RANK：10 ) 在线值：发帖 11 回帖 479 粉丝 3 关注私信	zylyy 3 楼 666 2026-3-29 19:25 0
小Tzzz 雪币： 37 活跃值： (342) 能力值： ( LV2，RANK：10 ) 在线值：发帖 1 回帖 7 粉丝 0 关注私信	小Tzzz 4 楼 666 2026-3-29 21:15 0
天涯共何时雪币： 57 能力值： ( LV1，RANK：0 ) 在线值：发帖 10 回帖 29 粉丝 1 关注私信	天涯共何时 5 楼 6666 2026-5-15 12:00 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复