首页
社区
课程
招聘
[原创]PiScanner (AI Red Teaming —— Prompt Injection Scanner)
发表于: 2025-6-27 16:41 350

[原创]PiScanner (AI Red Teaming —— Prompt Injection Scanner)

2025-6-27 16:41
350

     

       两年前,一次偶然的“救火”任务,让我一脚踏入了AI安全的“坑”。我之所以称之为“坑”,是因为在AI浪潮下,几乎每天都有新概念、新技术、新产品诞生。然而,当给“AI”戴上“安全”的帽子时,我们却常常发现,许多时候只是在用新概念包装旧问题。无论是AI自身安全,还是AI赋`能安全,要想在企业中真正落地、产生价值,都需要填补无数的坑。


       今天,我先不谈AI赋能安全,想和大家聚焦聊聊 AIGC内容安全 领域普遍存在的几个“坑”。

坑一:“定义”之坑:合规与安全的貌合神离

       首先要明确,不同地区对AIGC内容安全的关注点存在显著差异,这种定义的差异,导致了防护策略与目标的根本不同。

  • 国内语境:更侧重于 合规性 (Compliance)。核心是满足监管要求,例如 TC260中定义的A1类风险。

  • 国际语境:更侧重于 安全可靠性 (Safety)。核心是规避对人类社会的潜在威胁,如种族歧视、偏见、仇恨言论等。

坑二:“落地”之坑:API调用的安全围栏为何总是“纸老虎”?

       一个普遍现象是:模型服务提供商(如OpenAI,Anthropic,文心一言等)的原生应用(Client APP)通常具备极强的安全拦截能力。然而,当企业通过推理服务(Inference API)调用这些大模型时,其内容安全防护能力却往往大打折扣。原因很简单:预算和成本

企业在采购或集成时,通常不会选用服务商最顶级的、价格高昂的外部安全围栏方案(这些方案往往包含海量红线语料库、高精度的多分类模型、复杂的文本干预模块,甚至一个专门用于安全审查的小参数级别LLM)。这就导致了API调用方的安全水位,远低于模型提供方。

三:“风险”之坑

       去年是LLM备案年,因此某单位技术的老师们会审核严一些;现在有抽检巡检流程,审核会相对松一些。更重要的是,现在的模型输出在包含潜在不合规内容时,往往会附带一句“免责声明”或“正向引导”来“缓释风险”。

       这直接导致了一个后果:师傅们现在在SRC提交AIGC内容安全漏洞时,常常因为这种“缓释”而被判定为无效或低风险。所以正向回复/兜底回复,也需要在AI红队测试实践过程中考虑,相应降低风险,除非是严重不合规(懂得都懂)。

坑四:“工具”之坑:低效的“军火库”,基线测试形同虚设

       目前,许多企业在进行AIGC内容安全测试时,要么基于开源项目进行二次开发,要么采购商业工具。它们通常做法是封装一层自己产品的API(有的企业甚至多个产品用多种API字段配置)。然后用内置的、固定的提示词库进行测试。以Garak为例,对抗性提示词也会分类并耦合在代码中,比如 Nvidia 的 Garak每种攻击类提示词耦合在不同的probe中,时效性差的提示词很多,提示词的ASR(攻击成功率)非常低,用这类工具进行安全基线测试,其效果甚至不如去Reddit或社交媒体上随便找几个新颖的越狱提示词。这样的测试,无异于走个过场。


我的解决方案:PiScanner — 为实战而生的AIGC安全测试工作流

一个小工具,像搭了个工作流,用户自己配置测试目标、对抗攻击提示词评估用的LLM、评估提示词、兜底回复/正向回复关键词。


访问链接:624K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6Y4K9i4c8Z5N6h3u0Q4x3X3g2U0L8$3#2Q4x3V1k6t1L8$3I4A6k6r3q4&6L8X3!0K6k6h3y4Q4x3V1k6b7K9g2y4U0j5h3&6F1k6i4t1`.


受众群体:企业AI安全(AI-SDL)建设、AI红队、个人安全研究员。核心理念是:"提示词即是攻击入口"。


下一个版本:文生图的提示词注入风险检测功能。




具体实现效果如下所示:

282K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6Y4K9i4c8Z5N6h3u0Q4x3X3g2U0L8$3#2Q4x3V1k6#2M7$3g2J5i4K6u0V1j5i4c8@1j5h3y4Z5L8h3g2F1N6s2y4Q4x3V1k6S2M7%4y4W2N6s2y4Q4x3V1k6S2x3X3u0T1j5e0j5&6y4#2)9J5k6o6M7@1y4X3u0Q4x3X3b7@1x3o6y4S2i4K6u0V1j5e0V1J5k6g2)9J5k6o6l9J5j5e0f1#2y4e0M7K6x3K6S2T1x3R3`.`.


为什么用配置化来替代像Garak的插件化呢?

1. 因为插件化的扩展成本更高,需要新建一个专项检测类继承自base类,甚至新建一个对应的评估器,有的检测类的提示词也是硬编码在代码中,而不是txt文件。

2. 对抗性攻击提示词分类是必要的,之后打算按照对抗技巧进行分类。但插件化的每个类别的提示词是否具有时效性,ASR(攻击成功率)从低到高是否都包含?这在AI Red Teaming 中是需要着重考虑的。对于内容安全测试,我们更希望做基线测试,当成NDay 漏洞,将已经公开的对抗提示词覆盖测试,而不是简单走个过场自欺欺人。

3. 评估器的配置中,这个工具包含:正则和LLM,分别充当兜底回复的检测器和评估ASR的教师模型。后期会加上一部分本地模型的配置字段,用于本地调用基于BERT构建的自研多分类器。(速度更快/体积小)



传播安全知识、拓宽行业人脉——看雪讲师团队等你加入!

最后于 2025-7-1 11:10 被Mr_Holiday编辑 ,原因:
收藏
免费 0
支持
分享
最新回复 (0)
游客
登录 | 注册 方可回帖
返回