首页
社区
课程
招聘
[讨论]深度学习是不是也能用作逆向?
2020-11-8 10:54 4542

[讨论]深度学习是不是也能用作逆向?

2020-11-8 10:54
4542

最近在学习深度学习,感觉深度学习的提取特征,进行分析和推测是不是也可以应用于逆向.

 

深度学习比如你给一堆二进制代码, 然后给一堆相对应的源码,经过深度学习模型训练之后,能从中找到最合适的模式进行概率猜测, 就像图像识别一样, 很有可能猜到99%可能的源码是什么.

 

训练的大量样本可以用大量的开源软件代码进行编译训练,最后实现大于90%的代码还原

 

甚至可以训练各个版本VMP混淆后的代码,也能还原到原始代码.

 

大家觉得这个想法可能吗?


[培训]《安卓高级研修班(网课)》月薪三万计划,掌 握调试、分析还原ollvm、vmp的方法,定制art虚拟机自动化脱壳的方法

最后于 2020-11-9 09:38 被hpphpp编辑 ,原因:
收藏
免费 0
打赏
分享
最新回复 (22)
雪    币: 791
活跃值: (404)
能力值: ( LV4,RANK:51 )
在线值:
发帖
回帖
粉丝
gxkyrftx 2020-11-8 12:02
2
0
顶会上有一些论文
雪    币: 2674
活跃值: (2304)
能力值: ( LV5,RANK:60 )
在线值:
发帖
回帖
粉丝
低调putchar 1 2020-11-8 12:33
3
0
逆向机器人! 
雪    币: 687
活跃值: (320)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
thisisroot 2020-11-8 12:56
4
0
3年前有幸参加过RHG,当时就是通过算法和AI进行漏洞挖掘。
雪    币: 2129
活跃值: (4201)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
默NJ 2020-11-8 15:47
5
0
大有可为!
雪    币: 2956
活跃值: (4826)
能力值: ( LV5,RANK:60 )
在线值:
发帖
回帖
粉丝
舒默哦 1 2020-11-8 15:53
6
0
我觉得AI还原vmp是大材小用吧
雪    币: 477
活跃值: (1412)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
mb_foyotena 2020-11-8 16:24
7
0
深度学习没那么玄学,简单来说就是函数拟合。vmp混淆前后的映射关系除了功能等价,并不具备其它特征,不像图像有周围像素关系可以用GAN来还原马赛克
雪    币: 12176
活跃值: (15640)
能力值: ( LV12,RANK:240 )
在线值:
发帖
回帖
粉丝
pureGavin 2 2020-11-8 20:20
8
0
thisisroot 3年前有幸参加过RHG,当时就是通过算法和AI进行漏洞挖掘。
你这个AI漏洞挖掘,我老师也提起过,不过他认为目前无法实现精品漏洞挖掘
雪    币: 90
活跃值: (51)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
黄小付 2020-11-8 22:36
9
0
我在想如果能做一个网上智能ai逆向分析系统,会不会狂捞一笔,我觉得汇编转源码的工程不是没有可能实现的,不过这种技术太缺了,不会有人去反着搞的
雪    币: 12176
活跃值: (15640)
能力值: ( LV12,RANK:240 )
在线值:
发帖
回帖
粉丝
pureGavin 2 2020-11-8 22:51
10
0
黄小付 我在想如果能做一个网上智能ai逆向分析系统,会不会狂捞一笔,我觉得汇编转源码的工程不是没有可能实现的,不过这种技术太缺了,不会有人去反着搞的

不知道你说的汇编转源码是什么意思,IDA和ghidra都能实现伪代码,而且还原度也很高,另外ghidra是开源且免费的

最后于 2020-11-8 22:51 被pureGavin编辑 ,原因:
雪    币: 90
活跃值: (51)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
黄小付 2020-11-8 22:58
11
0
pureGavin 黄小付 我在想如果能做一个网上智能ai逆向分析系统,会不会狂捞一笔,我觉得汇编转源码的工程不是没有可能实现的,不过这种技术太缺了,不会有人去反着搞的 不知道你说 ...
我说的是比较高级的,可以说只要是二进制的文件都可以,不管加不加密
雪    币: 1243
活跃值: (1815)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
库尔 2020-11-8 23:00
12
0
如果能用if判断完成的vmp还原项目,就不需要深度学习这种耗时的玩意。目前楼上说的一样。除了功能等价,并不具备其它特征,深度学习的局部特征抓取的优势就发挥不出来。当前并不清楚哪些VMP还原方面上深度学习更优的选择。
雪    币: 1455
活跃值: (14624)
能力值: ( LV12,RANK:380 )
在线值:
发帖
回帖
粉丝
SSH山水画 3 2020-11-9 08:44
13
0
个人觉得不太现实,正向开发代码逻辑就那么多,完全可以用在深度学习上,逆向这东西一个人一个思路,从没有固定的套路,要不然为啥正向程序员6个月就能独立开发系统了,逆向工作者就必须要吃经验,要是单纯提取特征码啥的,感觉也用不到深度学习了
雪    币: 226
活跃值: (1314)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
hpphpp 2020-11-9 09:31
14
0
深度学习比如你给一堆二进制代码, 然后给一堆相对应的源码,经过深度学习模型训练之后,能从中找到最合适的模式进行概率猜测, 就像图像识别一样, 很有可能猜到99%可能的源码是什么.
雪    币: 2
活跃值: (102)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
Swrite 2020-11-9 09:46
15
0
你说的是这个?https://paper.seebug.org/1389/
雪    币: 477
活跃值: (1412)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
mb_foyotena 2020-11-9 09:47
16
0
hpphpp 深度学习比如你给一堆二进制代码, 然后给一堆相对应的源码,经过深度学习模型训练之后,能从中找到最合适的模式进行概率猜测, 就像图像识别一样, 很有可能猜到99%可能的源码是什么.
并不能完美还原,源码和二进制存在多映射关系,人工尚且无法做到。此外,想训练模型得依靠大量的样本输入,最终泛化效果取决于你样本是否足够全面,不是你想的那么简单
雪    币: 2
活跃值: (102)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
Swrite 2020-11-9 09:51
17
0
NeurIPS-2020 论文解读:基于跨模态检索的二进制代码-源代码匹配

作者:腾讯科恩实验室
原文链接:https://mp.weixin.qq.com/s/fvnvh25VaHgproPvVT6LDg
雪    币: 920
活跃值: (1620)
能力值: ( LV3,RANK:30 )
在线值:
发帖
回帖
粉丝
wuxiwudi 2020-11-9 10:17
18
0
之前打算搞一个相似的项目,利用深度学习对恶意样本进行家族归类,其实能做的东西还是不少的
雪    币: 1243
活跃值: (1815)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
库尔 2020-11-9 10:54
19
0
mb_foyotena 并不能完美还原,源码和二进制存在多映射关系,人工尚且无法做到。此外,想训练模型得依靠大量的样本输入,最终泛化效果取决于你样本是否足够全面,不是你想的那么简单
是否尝试像VTIL这种中间语言翻译缩小训练范围。
雪    币: 1928
活跃值: (392)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
TopGreen 2020-11-9 11:31
20
0
wuxiwudi 之前打算搞一个相似的项目,利用深度学习对恶意样本进行家族归类,其实能做的东西还是不少的
这个跟yara类的规则差不多了
雪    币: 920
活跃值: (1620)
能力值: ( LV3,RANK:30 )
在线值:
发帖
回帖
粉丝
wuxiwudi 2020-11-9 12:47
21
0
TopGreen 这个跟yara类的规则差不多了
后面有点像,相当于提取一个已知样本族谱特征,对未知样本进行扫描,判断威胁程度,这样对一些使用模块化或者公共库编译的样本有概率直接检出,不过对新样本就无能为力了,核心其实就是这个族谱特征提取的过程
雪    币: 687
活跃值: (320)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
thisisroot 2020-11-9 14:30
22
0
比赛的时候,3秒攻下第一道题,这是人类无法达到的速度。
优势就是速度快,成本低(省下海量的人工成本)。当有大量样本的时候,AI可以过滤一遍。
要深入挖掘的时候,再人工参与。
雪    币: 226
活跃值: (1314)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
hpphpp 2020-11-11 23:25
23
0
Swrite NeurIPS-2020 论文解读:基于跨模态检索的二进制代码-源代码匹配 作者:腾讯科恩实验室 原文链接:https://mp.weixin.qq.com/s/fvnvh25VaHgproP ...
长见识了,原来已经有人实现了
游客
登录 | 注册 方可回帖
返回