能力值:
( LV1,RANK:0 )
|
-
-
2 楼
收藏
|
能力值:
( LV3,RANK:20 )
|
-
-
3 楼
非常有意思啊。
|
能力值:
( LV4,RANK:40 )
|
-
-
4 楼
数据标的人麻了
|
能力值:
( LV12,RANK:240 )
|
-
-
5 楼
感谢分享,接下来的内容就交给DQN了
|
能力值:
( LV2,RANK:10 )
|
-
-
6 楼
感谢分享,mark
|
能力值:
( LV2,RANK:10 )
|
-
-
7 楼
想试但不想标注
|
能力值:
( LV2,RANK:10 )
|
-
-
8 楼
pureGavin
感谢分享,接下来的内容就交给DQN了 [em_86]
dqn貌似训练时间长,ppo,td3这类比较好点。
|
能力值:
( LV12,RANK:240 )
|
-
-
9 楼
库尔
dqn貌似训练时间长,ppo,td3这类比较好点。
关键看训练效果,不过我也没试过
|
能力值:
( LV2,RANK:10 )
|
-
-
10 楼
shinratensei
数据标的人麻了
https://github.com/AlvaroCavalcante/auto_annotate 可以用这个看看能不能减少标注,不过我觉得勤奋点能展现人的价值。
|
能力值:
( LV2,RANK:10 )
|
-
-
11 楼
pureGavin
关键看训练效果,不过我也没试过 改天我试试,不过强化学习这种估计要自定义GYM吧。Reward设计估计是精髓
最后于 2023-4-4 10:16
被库尔编辑
,原因:
|
能力值:
( LV12,RANK:240 )
|
-
-
12 楼
库尔
pureGavin
关键看训练效果,不过我也没试过 改天我试试,不过强化学习这种估计要自定义GYM吧。Reward设计估计是精髓
有这方面的教程或者样例代码吗?我也想自己亲手训练一下试试效果
|
能力值:
( LV2,RANK:10 )
|
-
-
13 楼
游戏教程网上有,水深得很,不过基本上只能在特定的gym支持的游戏运行,要想特定的还得要改改。 1. https://github.com/yannbouteiller/rtgym 这个是我已知能在现实环境中比较好改装得gym。 2. 会构造状态空间,根据不同游戏提取关键的变量和设计reward。其背后得原理还能追溯到物理学控制工程中得状态空间法。 3.我没搞这个,我上个礼拜做了一个Ai自动化fuzzing 挖掘二进制漏洞,用的也是强化学习,但是我会自己构造状态空间,试验项目在https://github.com/wrenchonline/AI_Fuzzing,漏洞代码超过12字节就会缓冲区溢出,11个字节基本上没事。训练十分钟这个ai就能够基本上12字节,但是模拟器是多线程,堆栈空间贝设定死了每次训练python堆栈限制都会卡住,后面改成多进程模拟。还有这个项目离实战距离可能还有一点距离,没有具体详细的数学算法了,所以fuzzing只能当个玩具看了。我只是试验而已。但当作自定义构造gym是可以参考下的。
最后于 2023-4-4 13:25
被库尔编辑
,原因:
|
能力值:
( LV2,RANK:10 )
|
-
-
14 楼
pureGavin
有这方面的教程或者样例代码吗?我也想自己亲手训练一下试试效果 教程网上有,水深得很,不过基本上只能在特定的gym支持的游戏运行,要想特定的还得要改改。 1. https://github.com/yannbouteiller/rtgym 这个是我已知能在现实环境中比较好改装得gym。 2. 会构造状态空间,根据不同游戏提取关键的变量和设计reward。其背后得原理还能追溯到物理学控制工程中得状态空间法。 3.我没搞这个,我上个礼拜做了一个Ai自动化fuzzing 挖掘二进制漏洞,用的也是强化学习,但是我会自己构造状态空间,试验项目在https://github.com/wrenchonline/AI_Fuzzing,漏洞代码输入内容payload超过12字节就会缓冲区溢出,11个字节以下基本上没事。训练十分钟这个ai就能够基本上12字节,但是模拟器是多线程,堆栈空间贝设定死了每次训练python堆栈限制都会卡住,后面改成多进程模拟。还有这个项目离实战距离可能还有一点距离,没有具体详细的数学算法了,所以fuzzing只能当个玩具看了。我只是试验而已。但当作自定义构造gym是可以参考下的
最后于 2023-4-4 16:10
被库尔编辑
,原因:
|
能力值:
( LV2,RANK:10 )
|
-
-
15 楼
总结你只需要能够清楚自定义gym和reward就行了。剩下算法,可以先套皮。
|
能力值:
( LV13,RANK:240 )
|
-
-
16 楼
库尔
总结你只需要能够清楚自定义gym和reward就行了。剩下算法,可以先套皮。
大佬啊。
|
能力值:
( LV2,RANK:10 )
|
-
-
17 楼
能来个视频更好了!!!
|
能力值:
( LV2,RANK:10 )
|
-
-
18 楼
库尔
总结你只需要能够清楚自定义gym和reward就行了。剩下算法,可以先套皮。
大佬你好,最近我也在思考能不能使用强化学习来优化脚本的打怪策略.我是专门写rpg游戏的. 可以收集到所有信息,比如怪物状态信息怪物技能轨迹,个人玩家人物信息,周围地形玩家信息. 一开始想用DQN,但是DQN局限性在于训练样本太多了通常要收集几千场对局数据.不太理想. 这样还不如自己手写的脚本策略. 不知道ppo,td3 这两种算法有哪些改进?
|
|
|