[分享][转帖][原创]7大顶会、150篇论文，2025 Agent 安全领域最全调研-AI 自身安全-看雪安全社区｜专业技术交流与安全研究论坛

[分享][转帖][原创]7大顶会、150篇论文，2025 Agent 安全领域最全调研

发表于: 2026-4-19 17:07 2957

[分享][转帖][原创]7大顶会、150篇论文，2025 Agent 安全领域最全调研

SecureNexusLab 活跃值

活跃值

2026-4-19 17:07

2957

作者: i3eg1nner&林00

「整理：丸一口 | 2026.04」

一开始整理这个材料的时候，只想着小范围传播，所以会有一些“锐评”和“idea废案”。没想到被SecureNexusLab的小伙伴邀请做广泛开源，内容比较多，没精力对这些碎碎念做删减了，希望不会影响到大家的阅读。

本文覆盖2025年七大顶会（S&P / USENIX / CCS / NDSS / ICLR / NeurIPS / ACL），150+篇Agent安全相关论文，每篇带思路总结。

GitHub：24eK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6Y4K9i4c8Z5N6h3u0Q4x3X3g2U0L8$3#2Q4x3V1k6h3j5h3&6Q4x3X3c8q4j5$3S2G2i4K6u0r3e0%4m8W2L8W2N6S2L8W2W2A6K9$3!0#2i4K6u0r3N6s2u0W2k6g2)9J5c8X3#2S2K9h3&6Q4x3V1j5H3y4W2)9J5k6q4y4#2M7Y4k6W2P5b7`.`.
原博主B站主页：372K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6K6M7r3q4U0k6g2)9J5k6h3u0A6L8r3W2T1K9h3I4A6i4K6u0W2j5$3!0E0i4K6u0r3x3K6b7$3x3e0f1%4x3U0t1&6x3o6j5%4y4K6j5H3z5b7`.`.

一、S&P 2025

论文关键词	一句话锐评	可用思路
开源｜文生图越狱｜双Agent迭代种子池	两个Agent互相喂种子，越狱效率翻倍	红队测试可借鉴这种“左右互搏”思路

二、USENIX 2025

论文关键词	一句话锐评	可用思路
视觉验证码｜将视觉任务转化为搜索优化问题	把验证码当搜索题做，绕过率惊人	验证码厂商该升级了
AgentFuzz｜用Agent迭代种子来找后门漏洞	Agent自己学挖洞，Fuzzing进入next level	可集成到CI/CD流程
修代码bug的Agent框架｜无训练｜规范化中间件	不训练就能用，中间件做规范化，很务实	生产环境可快速接入
主动防御｜无训练｜隐身诱饵陷阱	放诱饵让Agent踩，踩到就暴露	内部威胁检测的好思路

三、CCS 2025

论文关键词	一句话锐评	可用思路
传感器（车联网）｜防御｜动态信任值	车联网传感器动态调信任分，防伪造	可推广到IoT场景
系统层面布置探针｜端到端防御	从输入到输出全链路防护，理想但重	适合高安全等级场景

四、NDSS 2025

论文关键词	一句话锐评	可用思路
离线强化学习｜unlearning｜通过对要遗忘的数据进行微调实现等效unlearning	不想让Agent记住的数据，微调掉就行	合规场景（如GDPR被遗忘权）刚需
沙盒防御｜规定接口限制沙盒内的权限	沙盒里把接口卡死，Agent再强也出不去	多租户场景必看

五、ICLR 2025（含Poster）

论文关键词	一句话锐评	可用思路
强化学习｜通用物理控制Agent｜物理世界	让Agent在物理世界干活，RL玩家狂喜	机器人控制方向可追
图形用户界面Agent｜构造数据集｜训练模型	GUI自动化新基线	RPA场景直接对标
构造医学数据集	医学Agent的基建工作	医疗AI赛道必备
评估Agent端到端机器学习工程能力的BenchMark	测Agent会不会写ML代码，很刚需	MLE面试新题库（笑）
（批改）多Agent｜纳什均衡｜强化学习	多Agent博弈，最后到纳什均衡	多智能体对抗场景
自动化生成工作流｜蒙特卡洛树搜索	MCTS帮你自动编排Agent工作流	AutoGPT类项目可借鉴
RAG｜通用Agent	RAG套壳？但做得扎实也能发	所有RAG应用都该看一眼
教师模型｜偏好对齐｜运动	让Agent学会“像人一样动”	人机交互方向
Agent组网｜协议｜有意思	Agent之间怎么通信？这篇很有意思	多Agent系统的底层基建
多智能体集思广益	多个Agent一起brainstorm	创意生成类任务可用
红队测试｜防越狱｜Agent角色扮演左脚踩右脚	让Agent扮演红队互相攻防，自我进化	红队自动化最优雅的方案之一

六、NeurIPS 2025

论文关键词	一句话锐评	可用思路
推理阶段多次推理取最优	不训练，只靠多次采样+投票	成本不高，效果不错，直接能用
对闭源的蒸馏｜数据集构建｜计算机使用	把闭源Agent（如Claude Computer Use）的行为蒸馏出来	平替闭源Agent的核心技术
Web Agent｜按步骤给奖励｜过程奖励模型PRM	不只看结果，每一步都给奖励	Web自动化训练新范式
大世界｜强化学习&持续学习｜马尔科夫链	大世界环境下的Agent持续学习	开放世界游戏Agent必读

七、ACL 2025（精选）

论文关键词	一句话锐评	可用思路
事实核查｜多Agent左脚踩右脚	多Agent互相纠错，事实核查新范式	内容审核场景可借鉴
创造性智能｜用Agent玩密室逃脱	测Agent的创造性，密室逃脱是绝佳场景	游戏AI + 创造力评估
监测有害Meme梗图｜多Agent左脚踩右脚	让Agent自己识别有害梗图	内容安全审核
编译｜让Agent模仿人类面对github项目时的工作流	Agent学会看文档、装依赖、编译	自动化DevOps
安卓BenchMark｜数据集	移动端Agent的标准化测试	手机自动化方向必看
金融决策BenchMark｜分层记忆	让Agent学会炒股，分层记忆是关键	量化交易Agent
BookWorld｜把世界观提取出来｜有意思	从小说提取世界观，Agent在里面演化	游戏NPC + 自动化故事生成

几个“废案”想法（可能对你有启发）

「Agent越狱的“疫苗”思路」：能不能让Agent提前见过所有越狱模板，就像打疫苗一样？—— 成本太高，放弃了
「用验证码反制Agent」：既然Agent能过验证码，那能不能动态生成Agent过不了的验证码？—— 猫鼠游戏，没想清楚边界
「多Agent“相互水论文”」：让多个Agent互相review + 改稿，自动产出文献综述 —— 试过，质量太差，但未来可期

如果对你有帮助，欢迎**「转发、在看、分享」**给更多朋友。

[招生]科锐逆向工程师培训(2026年7月3日实地，远程教学同时开班, 第56期)！

上传的附件：

001-Agent安全文献调研-25年共154篇-丸一口.pdf （8.81MB，9次下载）

收藏・0

免费・0

打赏

分享

最新回复 (0)
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复

返回

SecureNexusLab

发帖

回帖

RANK

他的文章

看雪公众号

专注于PC、移动、智能设备安全研究及逆向工程的开发者社区