能力值:
( LV1,RANK:0 )
|
-
-
2 楼
收藏
|
能力值:
( LV3,RANK:20 )
|
-
-
3 楼
非常有意思啊。
|
能力值:
( LV4,RANK:40 )
|
-
-
4 楼
数据标的人麻了
|
能力值:
( LV12,RANK:290 )
|
-
-
5 楼
感谢分享,接下来的内容就交给DQN了
|
能力值:
( LV2,RANK:10 )
|
-
-
6 楼
感谢分享,mark
|
能力值:
( LV2,RANK:10 )
|
-
-
7 楼
想试但不想标注
|
能力值:
( LV2,RANK:10 )
|
-
-
8 楼
pureGavin
感谢分享,接下来的内容就交给DQN了 [em_86]
dqn貌似训练时间长,ppo,td3这类比较好点。
|
能力值:
( LV12,RANK:290 )
|
-
-
9 楼
库尔
dqn貌似训练时间长,ppo,td3这类比较好点。
关键看训练效果,不过我也没试过
|
能力值:
( LV2,RANK:10 )
|
-
-
10 楼
shinratensei
数据标的人麻了
aabK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6Y4K9i4c8Z5N6h3u0Q4x3X3g2U0L8$3#2Q4x3V1k6m8L8s2k6S2M7X3!0o6j5i4k6S2L8r3y4S2L8Y4c8W2i4K6u0r3j5i4g2@1L8#2)9#2k6X3q4F1L8X3!0@1j5i4c8W2i4K6t1$3L8X3u0K6M7q4)9K6b7W2!0q4y4g2)9^5c8W2!0m8c8W2!0q4y4q4!0n7b7W2!0m8y4g2!0q4y4#2)9&6y4q4!0m8z5q4!0q4z5q4!0n7c8W2)9&6z5g2!0q4y4q4!0n7z5q4!0m8b7g2!0q4y4#2)9&6b7#2)9^5b7W2!0q4y4#2)9&6b7#2)9^5b7W2!0q4z5q4)9^5x3#2!0n7c8q4!0q4y4q4!0n7z5q4)9^5c8q4!0q4z5q4)9^5x3#2!0n7c8q4!0q4y4g2)9^5y4#2)9^5c8W2!0q4y4g2!0n7x3q4)9&6x3g2!0q4y4W2!0m8x3q4)9^5y4#2!0q4y4W2!0n7x3#2!0m8z5q4!0q4c8W2!0n7b7#2)9^5b7#2!0q4y4q4!0n7z5q4)9^5c8q4!0q4z5q4!0n7c8W2)9^5y4#2!0q4y4W2)9^5z5q4)9&6x3g2!0q4z5q4!0m8y4#2)9^5z5g2!0q4y4g2!0n7c8g2)9&6y4#2!0q4y4g2)9^5b7W2!0m8y4q4!0q4y4g2!0m8y4g2)9^5b7W2!0q4y4#2)9^5x3W2!0n7z5g2!0q4z5q4)9^5x3#2!0n7c8q4!0q4y4g2!0n7x3g2)9&6y4g2!0q4y4#2)9^5c8g2!0n7x3q4!0q4y4q4!0n7b7g2!0n7b7g2!0q4y4#2)9&6b7g2)9^5y4q4!0q4y4q4!0n7b7W2!0n7y4#2!0q4y4g2)9^5x3q4!0n7b7#2!0q4x3#2)9^5x3q4)9^5x3R3`.`.
|
能力值:
( LV2,RANK:10 )
|
-
-
11 楼
pureGavin
关键看训练效果,不过我也没试过 改天我试试,不过强化学习这种估计要自定义GYM吧。Reward设计估计是精髓
最后于 2023-4-4 10:16
被库尔编辑
,原因:
|
能力值:
( LV12,RANK:290 )
|
-
-
12 楼
库尔
pureGavin
关键看训练效果,不过我也没试过 改天我试试,不过强化学习这种估计要自定义GYM吧。Reward设计估计是精髓
有这方面的教程或者样例代码吗?我也想自己亲手训练一下试试效果
|
能力值:
( LV2,RANK:10 )
|
-
-
13 楼
游戏教程网上有,水深得很,不过基本上只能在特定的gym支持的游戏运行,要想特定的还得要改改。 1. ccdK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6Y4K9i4c8Z5N6h3u0Q4x3X3g2U0L8$3#2Q4x3V1k6&6j5h3&6F1j5X3!0#2N6r3g2A6L8r3I4W2M7W2)9J5c8Y4u0@1k6%4W2E0i4K6t1$3L8X3u0K6M7q4)9K6b7W2!0q4z5q4!0n7c8W2)9&6z5g2!0q4y4q4!0n7z5q4!0m8b7g2!0q4y4W2)9&6z5q4!0m8c8W2!0q4y4W2)9^5z5q4)9&6x3g2!0q4y4g2!0n7y4#2!0n7x3W2!0q4y4#2)9&6c8W2!0m8y4g2!0q4z5q4)9^5x3#2!0n7c8q4!0q4y4g2)9&6b7#2!0m8z5q4!0q4y4#2)9^5c8g2!0n7x3q4!0q4y4g2!0m8c8g2)9&6c8g2!0q4y4#2)9^5c8g2!0m8c8W2!0q4y4g2!0m8x3W2)9^5x3#2!0q4y4q4!0n7z5q4!0m8c8q4!0q4y4W2!0m8c8W2)9&6y4q4!0q4z5q4!0n7c8g2)9^5x3#2!0q4y4g2!0m8y4g2!0n7c8q4!0q4y4W2)9&6y4q4!0n7z5g2!0q4z5q4!0m8x3#2)9^5y4g2!0q4y4g2!0n7c8g2)9&6y4$3N6&6L8g2!0q4x3#2)9^5x3q4)9^5x3R3`.`. 2. 会构造状态空间,根据不同游戏提取关键的变量和设计reward。其背后得原理还能追溯到物理学控制工程中得状态空间法。 3.我没搞这个,我上个礼拜做了一个Ai自动化fuzzing 挖掘二进制漏洞,用的也是强化学习,但是我会自己构造状态空间,试验项目在afcK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6Y4K9i4c8Z5N6h3u0Q4x3X3g2U0L8$3#2Q4x3V1k6%4M7X3g2F1j5$3S2G2L8X3I4A6L8X3g2Q4x3V1k6m8d9g2)9#2k6V1k6#2P5Y4A6A6L8X3N6Q4c8f1k6Q4b7V1y4Q4z5p5y4Q4c8e0k6Q4b7V1y4Q4z5p5k6Q4c8e0k6Q4b7U0c8Q4z5f1g2Q4c8e0c8Q4b7V1u0Q4b7e0y4Q4c8e0N6Q4b7e0m8Q4z5o6q4Q4c8e0S2Q4b7U0k6Q4z5o6g2Q4c8e0S2Q4b7V1k6Q4z5o6M7I4x3W2!0q4y4g2!0m8c8q4)9&6y4#2!0q4z5q4)9^5b7g2)9^5x3W2!0q4y4g2!0n7x3q4!0n7x3g2!0q4y4q4!0n7b7#2)9&6b7g2!0q4y4#2!0n7b7#2)9&6x3#2!0q4y4g2)9^5y4W2!0n7x3W2!0q4y4g2)9^5b7#2!0n7b7g2!0q4y4W2!0n7b7g2!0m8x3W2!0q4y4g2)9^5y4#2!0n7b7g2!0q4c8W2!0n7b7#2)9^5b7K6p5I4i4@1f1@1i4@1t1^5i4@1q4m8i4@1f1#2i4@1q4p5i4K6V1%4i4@1f1^5i4K6S2m8i4K6R3J5i4@1f1#2i4K6W2r3i4@1u0m8i4@1f1$3i4K6W2o6i4@1q4o6i4@1f1@1i4@1t1^5i4K6S2m8i4@1f1$3i4@1t1J5i4@1p5I4i4@1f1@1i4@1u0m8i4K6S2n7i4@1f1K6i4K6R3H3i4K6R3J5i4@1f1^5i4@1q4q4i4@1q4p5i4@1f1%4i4@1u0n7i4K6R3K6i4@1f1#2i4K6S2p5i4K6R3I4i4@1f1#2i4K6R3^5i4K6R3$3i4@1f1&6i4K6V1J5i4K6W2r3i4@1f1^5i4@1u0r3i4K6V1&6i4@1f1@1i4@1t1^5i4@1q4m8j5h3W2Q4c8e0g2Q4b7U0m8Q4b7U0q4Q4c8e0S2Q4z5o6y4Q4b7V1c8Q4c8e0g2Q4b7e0c8Q4z5f1k6Q4c8e0g2Q4z5f1k6Q4b7V1q4Q4c8e0k6Q4z5f1y4Q4b7f1y4Q4c8e0c8Q4b7U0S2Q4z5p5p5I4x3W2!0q4y4g2!0m8c8q4)9&6y4#2!0q4z5q4)9^5b7g2)9^5x3W2!0q4c8W2!0n7b7#2)9^5b7#2!0q4y4q4!0n7c8q4)9^5y4W2!0q4y4W2)9&6z5q4!0m8c8W2!0q4y4W2!0m8z5q4!0m8x3g2!0q4y4W2)9^5b7W2)9&6c8W2!0q4y4g2)9&6z5g2!0m8z5q4!0q4y4W2)9&6z5q4!0m8c8W2!0q4y4g2!0m8y4q4)9&6b7g2!0q4y4#2!0n7b7g2!0n7c8W2!0q4y4#2!0m8z5q4)9^5b7W2!0q4c8W2!0n7b7#2)9^5b7#2!0q4y4g2!0m8x3q4)9^5y4W2!0q4y4W2!0m8x3q4)9^5z5q4!0q4y4#2!0m8z5g2!0n7b7g2!0q4z5g2)9&6y4#2!0n7y4q4!0q4z5q4!0n7y4q4)9&6c8q4!0q4z5q4!0m8c8g2!0n7c8g2!0q4y4g2!0m8c8g2)9&6b7g2!0q4y4W2!0m8c8q4!0n7b7W2!0q4y4q4!0n7b7g2)9^5y4W2!0q4y4W2!0m8c8W2)9^5c8W2!0q4y4W2!0m8b7#2!0m8x3g2!0q4z5q4!0m8c8g2!0m8c8q4!0q4y4#2!0n7b7W2)9^5x3%4m8&6N6r3S2G2L8W2!0q4y4g2!0m8x3q4)9^5y4W2!0q4y4W2!0m8x3q4)9^5z5q4!0q4z5g2)9&6z5g2)9&6x3q4!0q4y4g2)9^5z5q4!0n7y4W2!0q4z5g2)9^5x3#2!0n7c8q4!0q4y4q4!0n7b7#2)9&6b7g2!0q4y4g2)9^5c8q4!0m8x3g2!0q4y4q4!0n7c8q4)9^5c8W2!0q4c8W2!0n7b7#2)9^5b7#2!0q4y4g2)9&6x3q4)9^5c8g2!0q4z5g2)9&6c8q4!0m8x3W2!0q4y4W2)9&6y4q4!0n7z5g2!0q4y4W2)9^5z5q4)9&6x3q4!0q4y4g2!0m8y4q4)9&6b7g2!0q4z5q4!0n7c8W2)9&6b7W2!0q4y4#2!0m8z5q4)9^5b7W2!0q4y4W2!0m8z5q4!0m8x3g2!0q4y4W2)9^5b7W2)9&6c8W2!0q4x3#2)9^5x3q4)9^5x3W2!0q4z5q4!0n7c8W2)9&6z5q4!0q4y4W2)9&6b7#2)9^5z5g2!0q4z5q4!0n7c8W2)9&6z5g2!0q4y4q4!0n7z5q4!0m8b7g2!0q4z5g2!0m8x3g2!0n7z5g2!0q4y4#2)9&6b7W2!0m8c8g2!0q4y4#2!0m8y4W2!0n7b7W2!0q4y4g2!0m8c8g2)9&6c8g2!0q4y4W2)9^5z5q4)9&6z5q4!0q4z5q4!0n7y4#2)9&6c8q4!0q4y4#2!0m8y4W2!0n7b7W2!0q4y4g2)9^5c8W2!0m8c8W2!0q4z5q4)9^5x3#2!0n7c8q4!0q4z5q4!0n7c8W2)9&6z5q4!0q4y4W2)9&6b7#2)9^5z5g2!0q4y4q4!0n7z5q4)9^5x3q4!0q4y4#2)9^5x3W2!0n7z5g2!0q4z5q4!0n7y4#2)9&6c8q4!0q4y4#2!0m8y4W2!0n7b7W2!0q4c8W2!0n7b7#2)9^5b7#2!0q4y4W2!0n7x3W2!0m8x3g2!0q4y4W2)9&6b7#2)9^5z5g2!0q4y4g2)9^5y4g2!0n7y4#2!0q4y4q4!0n7c8q4)9&6x3#2!0q4z5q4!0m8c8W2!0m8y4W2!0q4y4#2!0n7b7W2)9^5y4W2!0q4y4#2)9&6b7g2)9^5y4q4!0q4y4W2)9&6y4g2!0n7x3q4!0q4y4g2!0m8c8q4!0m8y4W2!0q4y4#2!0m8c8g2)9&6y4#2!0q4y4W2!0n7x3#2)9&6y4g2!0q4y4q4!0n7b7g2)9^5y4W2!0q4c8W2!0n7b7#2)9^5b7#2!0q4y4W2)9^5z5g2)9^5x3q4!0q4y4q4!0n7b7W2!0m8y4h3k6#2P5Y4A6A6L8X3N6Q4c8e0g2Q4z5p5k6Q4b7f1q4Q4c8e0S2Q4z5o6y4Q4b7V1c8Q4c8e0g2Q4b7V1c8Q4z5e0y4Q4c8e0c8Q4b7U0S2Q4b7f1q4Q4c8e0N6Q4z5p5g2Q4b7e0W2Q4c8e0g2Q4z5o6g2Q4b7U0N6Q4c8e0N6Q4z5f1y4Q4z5p5u0Q4c8e0c8Q4b7V1q4Q4z5o6k6Q4c8e0y4Q4z5o6m8Q4z5o6u0Q4c8e0k6Q4z5o6S2Q4z5e0q4Q4c8e0g2Q4z5p5k6Q4b7f1q4Q4c8e0k6Q4z5e0S2Q4b7f1k6Q4c8e0S2Q4b7f1k6Q4z5e0g2Q4c8e0W2Q4b7f1q4Q4z5p5y4Q4c8e0S2Q4z5o6m8Q4z5p5y4Q4c8e0g2Q4b7U0N6Q4b7U0u0Q4c8e0y4Q4z5o6m8Q4z5o6u0Q4c8e0c8Q4b7V1c8Q4z5o6k6Q4c8e0g2Q4b7V1c8Q4z5e0y4Q4c8e0c8Q4b7V1c8Q4z5f1y4Q4c8e0S2Q4z5o6N6Q4b7f1q4Q4c8e0g2Q4b7f1g2Q4z5f1q4Q4c8e0c8Q4b7U0W2Q4z5o6W2Q4c8e0k6Q4z5f1g2Q4z5o6c8Q4c8e0W2Q4z5o6m8Q4b7e0m8Y4P5h3#2Q4c8e0k6Q4z5e0S2Q4b7f1k6Q4c8e0g2Q4z5p5k6Q4b7f1k6Q4c8e0c8Q4b7V1u0Q4b7e0g2Q4c8e0g2Q4z5p5k6Q4z5o6u0Q4c8e0S2Q4z5o6m8Q4z5o6y4Q4c8e0c8Q4b7U0S2Q4z5p5u0Q4c8e0N6Q4z5f1q4Q4z5o6c8Q4c8e0y4Q4z5o6m8Q4z5o6t1`.
最后于 2023-4-4 13:25
被库尔编辑
,原因:
|
能力值:
( LV2,RANK:10 )
|
-
-
14 楼
pureGavin
有这方面的教程或者样例代码吗?我也想自己亲手训练一下试试效果 教程网上有,水深得很,不过基本上只能在特定的gym支持的游戏运行,要想特定的还得要改改。 1. 54aK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6Y4K9i4c8Z5N6h3u0Q4x3X3g2U0L8$3#2Q4x3V1k6&6j5h3&6F1j5X3!0#2N6r3g2A6L8r3I4W2M7W2)9J5c8Y4u0@1k6%4W2E0i4K6t1$3L8X3u0K6M7q4)9K6b7W2!0q4z5q4!0n7c8W2)9&6z5g2!0q4y4q4!0n7z5q4!0m8b7g2!0q4y4W2)9&6z5q4!0m8c8W2!0q4y4W2)9^5z5q4)9&6x3g2!0q4y4g2!0n7y4#2!0n7x3W2!0q4y4#2)9&6c8W2!0m8y4g2!0q4z5q4)9^5x3#2!0n7c8q4!0q4y4g2)9&6b7#2!0m8z5q4!0q4y4#2)9^5c8g2!0n7x3q4!0q4y4g2!0m8c8g2)9&6c8g2!0q4y4#2)9^5c8g2!0m8c8W2!0q4y4g2!0m8x3W2)9^5x3#2!0q4y4q4!0n7z5q4!0m8c8q4!0q4y4W2!0m8c8W2)9&6y4q4!0q4z5q4!0n7c8g2)9^5x3#2!0q4y4g2!0m8y4g2!0n7c8q4!0q4y4W2)9&6y4q4!0n7z5g2!0q4z5q4!0m8x3#2)9^5y4g2!0q4y4g2!0n7c8g2)9&6y4$3N6&6L8g2!0q4x3#2)9^5x3q4)9^5x3R3`.`. 2. 会构造状态空间,根据不同游戏提取关键的变量和设计reward。其背后得原理还能追溯到物理学控制工程中得状态空间法。 3.我没搞这个,我上个礼拜做了一个Ai自动化fuzzing 挖掘二进制漏洞,用的也是强化学习,但是我会自己构造状态空间,试验项目在7e0K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6Y4K9i4c8Z5N6h3u0Q4x3X3g2U0L8$3#2Q4x3V1k6%4M7X3g2F1j5$3S2G2L8X3I4A6L8X3g2Q4x3V1k6m8d9g2)9#2k6V1k6#2P5Y4A6A6L8X3N6Q4c8f1k6Q4b7V1y4Q4z5p5y4Q4c8e0k6Q4b7V1y4Q4z5p5k6Q4c8e0k6Q4b7U0c8Q4z5f1g2Q4c8e0c8Q4b7V1u0Q4b7e0y4Q4c8e0N6Q4b7e0m8Q4z5o6q4Q4c8e0S2Q4b7V1g2Q4z5e0y4Q4c8e0g2Q4z5o6g2Q4b7e0g2Q4c8e0g2Q4z5o6k6Q4z5o6g2Q4c8e0g2Q4b7f1g2Q4b7U0W2H3j5i4W2D9L8$3q4V1i4@1f1^5i4@1t1$3i4K6R3#2i4@1f1^5i4@1u0r3i4K6R3%4x3e0u0Q4c8e0g2Q4b7f1c8Q4z5e0N6Q4c8e0S2Q4z5p5q4Q4z5o6u0Q4c8e0g2Q4b7U0m8Q4b7U0q4Q4c8e0c8Q4b7V1y4Q4z5f1q4Q4c8e0N6Q4b7V1y4Q4z5e0y4Q4c8e0g2Q4z5o6k6Q4b7U0u0Q4c8e0g2Q4z5p5y4Q4b7V1q4Q4c8e0k6Q4b7V1q4Q4b7e0u0Q4c8e0g2Q4z5o6N6Q4b7V1q4Q4c8f1k6Q4b7V1y4Q4z5p5x3I4x3g2!0q4y4q4!0n7z5q4!0m8b7g2!0q4y4g2!0m8c8q4)9&6y4#2!0q4z5q4)9^5b7g2)9^5x3W2!0q4y4q4!0n7b7W2!0m8y4g2!0q4y4q4!0n7z5q4)9^5b7W2!0q4y4g2)9&6c8W2!0n7b7g2!0q4y4W2)9&6b7#2!0m8b7#2!0q4y4q4!0n7z5q4)9^5b7g2!0q4y4W2!0n7x3W2!0m8x3g2!0q4y4q4!0n7b7g2)9^5b7W2!0q4x3#2)9^5x3q4)9^5x3W2!0q4z5q4!0m8c8g2!0m8c8q4!0q4y4#2!0n7b7W2)9^5x3#2!0q4y4g2)9^5c8q4)9^5x3g2!0q4y4g2)9^5z5q4)9^5y4W2!0q4z5g2)9&6x3W2)9&6c8W2!0q4z5q4!0n7c8W2)9&6z5g2!0q4y4q4!0n7z5q4!0m8b7h3q4A6i4@1f1#2i4@1t1H3i4@1t1I4i4@1f1^5i4K6R3K6i4@1u0p5i4@1f1#2i4@1p5@1i4K6W2r3i4@1f1#2i4K6W2r3i4@1u0m8i4@1f1$3i4K6W2o6i4@1q4o6i4@1f1@1i4@1t1^5i4K6S2m8x3e0u0Q4c8e0g2Q4b7f1c8Q4z5e0N6Q4c8e0S2Q4z5p5q4Q4z5o6u0Q4c8f1k6Q4b7V1y4Q4z5p5y4Q4c8e0c8Q4b7V1c8Q4z5o6k6Q4c8e0k6Q4z5e0S2Q4b7f1k6Q4c8e0k6Q4b7e0S2Q4b7e0q4Q4c8e0k6Q4z5p5u0Q4z5f1k6Q4c8e0g2Q4z5e0W2Q4b7e0S2Q4c8e0k6Q4z5e0S2Q4b7f1k6Q4c8e0g2Q4b7e0c8Q4z5f1q4Q4c8e0N6Q4b7V1q4Q4b7V1k6Q4c8e0N6Q4b7e0S2Q4z5p5u0Q4c8f1k6Q4b7V1y4Q4z5p5y4Q4c8e0g2Q4b7e0m8Q4z5o6k6Q4c8e0k6Q4b7e0m8Q4z5o6S2Q4c8e0N6Q4b7e0W2Q4b7V1q4Q4c8e0W2Q4z5e0N6Q4b7U0c8Q4c8e0S2Q4b7U0c8Q4z5f1c8Q4c8e0S2Q4b7f1g2Q4b7V1g2Q4c8e0g2Q4b7f1g2Q4z5f1q4Q4c8e0k6Q4b7f1c8Q4b7V1u0Q4c8e0c8Q4b7V1q4Q4z5o6k6Q4c8e0k6Q4b7f1k6Q4z5p5k6Q4c8e0k6Q4b7f1y4Q4b7e0q4Q4c8e0S2Q4b7f1g2Q4b7f1c8Q4c8e0N6Q4b7V1u0Q4z5o6y4H3P5i4c8Z5L8$3&6Q4c8e0g2Q4b7e0m8Q4z5o6k6Q4c8e0k6Q4b7e0m8Q4z5o6S2Q4c8e0W2Q4z5e0W2Q4z5e0m8Q4c8e0g2Q4z5o6S2Q4b7U0k6Q4c8e0W2Q4z5o6y4Q4b7V1c8Q4c8e0c8Q4b7V1y4Q4z5f1q4Q4c8e0g2Q4z5p5c8Q4b7e0q4Q4c8e0c8Q4b7V1c8Q4z5p5k6Q4c8f1k6Q4b7V1y4Q4z5p5y4Q4c8e0g2Q4z5e0m8Q4z5p5g2Q4c8e0W2Q4z5f1c8Q4b7e0u0Q4c8e0k6Q4z5e0c8Q4b7U0W2Q4c8e0k6Q4z5o6S2Q4z5e0m8Q4c8e0g2Q4b7e0c8Q4z5f1q4Q4c8e0S2Q4b7V1k6Q4z5f1u0Q4c8e0N6Q4b7e0S2Q4z5p5u0Q4c8e0k6Q4b7e0S2Q4b7e0q4Q4c8e0k6Q4z5p5u0Q4z5f1k6Q4c8e0y4Q4z5o6m8Q4z5o6u0Q4c8e0S2Q4b7V1k6Q4z5e0S2Q4c8e0k6Q4z5f1y4Q4z5o6W2Q4c8e0S2Q4b7V1k6Q4z5e0W2Q4c8e0c8Q4b7U0S2Q4b7f1q4Q4c8e0W2Q4b7e0q4Q4b7U0W2Q4c8e0N6Q4z5f1u0Q4b7f1g2Q4c8e0N6Q4b7e0k6Q4b7V1u0Q4c8e0g2Q4b7f1g2Q4z5f1g2Q4c8e0k6Q4z5o6S2Q4z5e0S2Q4c8e0S2Q4b7U0N6Q4z5f1c8Q4c8e0N6Q4b7e0k6Q4b7V1u0Q4c8e0g2Q4z5p5k6Q4b7f1k6Q4c8e0S2Q4z5o6y4Q4b7V1c8Q4c8e0S2Q4b7V1k6Q4z5e0S2Q4c8e0k6Q4z5f1y4Q4z5o6W2Q4c8e0c8Q4b7U0S2Q4z5o6m8Q4c8e0N6Q4z5o6u0Q4b7U0W2Q4c8e0S2Q4b7U0N6Q4z5f1c8Q4c8e0N6Q4b7e0k6Q4b7V1u0Q4c8f1k6Q4b7V1y4Q4z5p5y4Q4c8e0k6Q4b7U0u0Q4b7e0q4Q4c8e0k6Q4z5f1y4Q4z5o6W2Q4c8e0g2Q4z5o6g2Q4b7U0N6Q4c8e0c8Q4b7V1c8Q4z5e0y4Q4c8e0S2Q4b7f1k6Q4b7e0k6Q4c8e0N6Q4b7V1u0Q4z5o6k6Q4c8e0N6Q4z5f1q4Q4z5o6c8Q4c8e0k6Q4z5e0g2Q4b7U0m8Q4c8e0g2Q4b7f1c8Q4b7e0k6Q4c8e0N6Q4b7f1g2Q4z5e0N6Q4c8e0k6Q4b7U0y4Q4z5e0g2Q4c8e0c8Q4b7V1q4Q4z5o6k6Q4c8f1k6Q4b7V1y4Q4z5p5y4Q4c8e0k6Q4z5o6W2Q4z5o6m8Q4c8e0c8Q4b7V1u0Q4b7e0g2X3N6i4A6*7K9h3&6Y4i4@1f1#2i4K6S2r3i4@1q4m8i4@1f1^5i4K6R3K6i4@1u0p5i4@1f1#2i4@1u0p5i4K6V1K6i4@1f1@1i4@1t1^5i4@1q4m8i4@1f1%4i4K6S2q4i4@1p5&6i4@1f1#2i4K6R3#2i4@1t1%4i4@1f1%4i4K6W2o6i4K6S2n7i4@1f1@1i4@1u0m8i4K6R3$3i4@1f1K6i4K6R3H3i4K6R3J5i4@1f1$3i4K6R3^5i4K6V1I4i4@1f1#2i4K6S2r3i4@1q4m8i4@1f1$3i4K6V1^5i4@1q4r3i4@1f1^5i4@1q4r3i4K6V1#2i4@1f1&6i4@1q4m8i4K6S2o6i4@1f1^5i4K6R3H3i4K6S2o6i4@1f1#2i4@1t1%4i4@1t1J5i4@1f1K6i4K6R3H3i4K6R3J5i4@1f1@1i4@1u0p5i4K6R3$3i4@1f1#2i4@1u0p5i4K6V1K6i4@1f1@1i4@1u0p5i4K6W2o6i4@1f1^5i4K6R3%4i4@1q4m8i4@1f1#2i4@1q4q4i4K6W2m8i4@1f1@1i4@1t1&6i4K6R3&6i4@1f1$3i4K6W2q4i4K6R3@1i4@1f1&6i4K6R3H3i4@1p5H3k6%4W2E0i4@1f1$3i4K6V1^5i4@1q4r3i4@1f1#2i4K6S2r3i4@1q4r3i4@1f1@1i4@1u0n7i4@1p5#2i4@1f1#2i4K6S2r3i4K6R3J5i4@1f1^5i4K6R3H3i4K6R3K6i4@1f1@1i4@1t1^5i4K6S2n7i4@1f1%4i4K6W2m8i4K6R3@1
最后于 2023-4-4 16:10
被库尔编辑
,原因:
|
能力值:
( LV2,RANK:10 )
|
-
-
15 楼
总结你只需要能够清楚自定义gym和reward就行了。剩下算法,可以先套皮。
|
能力值:
( LV13,RANK:240 )
|
-
-
16 楼
库尔
总结你只需要能够清楚自定义gym和reward就行了。剩下算法,可以先套皮。
大佬啊。
|
能力值:
( LV2,RANK:10 )
|
-
-
17 楼
能来个视频更好了!!!
|
能力值:
( LV2,RANK:10 )
|
-
-
18 楼
库尔
总结你只需要能够清楚自定义gym和reward就行了。剩下算法,可以先套皮。
大佬你好,最近我也在思考能不能使用强化学习来优化脚本的打怪策略.我是专门写rpg游戏的. 可以收集到所有信息,比如怪物状态信息怪物技能轨迹,个人玩家人物信息,周围地形玩家信息. 一开始想用DQN,但是DQN局限性在于训练样本太多了通常要收集几千场对局数据.不太理想. 这样还不如自己手写的脚本策略. 不知道ppo,td3 这两种算法有哪些改进?
|
能力值:
( LV2,RANK:10 )
|
-
-
19 楼
qj111111
大佬你好,最近我也在思考能不能使用强化学习来优化脚本的打怪策略.我是专门写rpg游戏的.
可以收集到所有信息,比如怪物状态信息怪物技能轨迹,个人玩家人物信息,周围地形玩家信息.
一开始想用DQN, ...
首选无脑是ppo + L2 正则化,PPO算是把时域变成频域。算是基于策略或者说对局经验的算法。TD3和PPO类似,不过PPO与DQN差距较大。
|
能力值:
( LV2,RANK:10 )
|
-
-
20 楼
感谢分享
|
|
|