首页
社区
课程
招聘
[讨论]深度学习是不是也能用作逆向?
发表于: 2020-11-8 10:54 5556

[讨论]深度学习是不是也能用作逆向?

2020-11-8 10:54
5556

最近在学习深度学习,感觉深度学习的提取特征,进行分析和推测是不是也可以应用于逆向.

 

深度学习比如你给一堆二进制代码, 然后给一堆相对应的源码,经过深度学习模型训练之后,能从中找到最合适的模式进行概率猜测, 就像图像识别一样, 很有可能猜到99%可能的源码是什么.

 

训练的大量样本可以用大量的开源软件代码进行编译训练,最后实现大于90%的代码还原

 

甚至可以训练各个版本VMP混淆后的代码,也能还原到原始代码.

 

大家觉得这个想法可能吗?


[招生]科锐逆向工程师培训(2024年11月15日实地,远程教学同时开班, 第51期)

最后于 2020-11-9 09:38 被hpphpp编辑 ,原因:
收藏
免费 0
支持
分享
最新回复 (22)
雪    币: 791
活跃值: (404)
能力值: ( LV4,RANK:51 )
在线值:
发帖
回帖
粉丝
2
顶会上有一些论文
2020-11-8 12:02
0
雪    币: 2674
活跃值: (2304)
能力值: ( LV5,RANK:60 )
在线值:
发帖
回帖
粉丝
3
逆向机器人! 
2020-11-8 12:33
0
雪    币: 687
活跃值: (320)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
4
3年前有幸参加过RHG,当时就是通过算法和AI进行漏洞挖掘。
2020-11-8 12:56
0
雪    币: 2466
活跃值: (4561)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
5
大有可为!
2020-11-8 15:47
0
雪    币: 2989
活跃值: (4911)
能力值: ( LV5,RANK:60 )
在线值:
发帖
回帖
粉丝
6
我觉得AI还原vmp是大材小用吧
2020-11-8 15:53
0
雪    币: 477
活跃值: (1412)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
7
深度学习没那么玄学,简单来说就是函数拟合。vmp混淆前后的映射关系除了功能等价,并不具备其它特征,不像图像有周围像素关系可以用GAN来还原马赛克
2020-11-8 16:24
0
雪    币: 14530
活跃值: (17548)
能力值: ( LV12,RANK:290 )
在线值:
发帖
回帖
粉丝
8
thisisroot 3年前有幸参加过RHG,当时就是通过算法和AI进行漏洞挖掘。
你这个AI漏洞挖掘,我老师也提起过,不过他认为目前无法实现精品漏洞挖掘
2020-11-8 20:20
0
雪    币: 90
活跃值: (51)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
9
我在想如果能做一个网上智能ai逆向分析系统,会不会狂捞一笔,我觉得汇编转源码的工程不是没有可能实现的,不过这种技术太缺了,不会有人去反着搞的
2020-11-8 22:36
0
雪    币: 14530
活跃值: (17548)
能力值: ( LV12,RANK:290 )
在线值:
发帖
回帖
粉丝
10
黄小付 我在想如果能做一个网上智能ai逆向分析系统,会不会狂捞一笔,我觉得汇编转源码的工程不是没有可能实现的,不过这种技术太缺了,不会有人去反着搞的

不知道你说的汇编转源码是什么意思,IDA和ghidra都能实现伪代码,而且还原度也很高,另外ghidra是开源且免费的

最后于 2020-11-8 22:51 被pureGavin编辑 ,原因:
2020-11-8 22:51
0
雪    币: 90
活跃值: (51)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
11
pureGavin 黄小付 我在想如果能做一个网上智能ai逆向分析系统,会不会狂捞一笔,我觉得汇编转源码的工程不是没有可能实现的,不过这种技术太缺了,不会有人去反着搞的 不知道你说 ...
我说的是比较高级的,可以说只要是二进制的文件都可以,不管加不加密
2020-11-8 22:58
0
雪    币: 1319
活跃值: (1960)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
12
如果能用if判断完成的vmp还原项目,就不需要深度学习这种耗时的玩意。目前楼上说的一样。除了功能等价,并不具备其它特征,深度学习的局部特征抓取的优势就发挥不出来。当前并不清楚哪些VMP还原方面上深度学习更优的选择。
2020-11-8 23:00
0
雪    币: 1475
活跃值: (14652)
能力值: ( LV12,RANK:380 )
在线值:
发帖
回帖
粉丝
13
个人觉得不太现实,正向开发代码逻辑就那么多,完全可以用在深度学习上,逆向这东西一个人一个思路,从没有固定的套路,要不然为啥正向程序员6个月就能独立开发系统了,逆向工作者就必须要吃经验,要是单纯提取特征码啥的,感觉也用不到深度学习了
2020-11-9 08:44
0
雪    币: 226
活跃值: (1419)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
14
深度学习比如你给一堆二进制代码, 然后给一堆相对应的源码,经过深度学习模型训练之后,能从中找到最合适的模式进行概率猜测, 就像图像识别一样, 很有可能猜到99%可能的源码是什么.
2020-11-9 09:31
0
雪    币: 2
活跃值: (102)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
15
你说的是这个?https://paper.seebug.org/1389/
2020-11-9 09:46
0
雪    币: 477
活跃值: (1412)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
16
hpphpp 深度学习比如你给一堆二进制代码, 然后给一堆相对应的源码,经过深度学习模型训练之后,能从中找到最合适的模式进行概率猜测, 就像图像识别一样, 很有可能猜到99%可能的源码是什么.
并不能完美还原,源码和二进制存在多映射关系,人工尚且无法做到。此外,想训练模型得依靠大量的样本输入,最终泛化效果取决于你样本是否足够全面,不是你想的那么简单
2020-11-9 09:47
0
雪    币: 2
活跃值: (102)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
17
NeurIPS-2020 论文解读:基于跨模态检索的二进制代码-源代码匹配

作者:腾讯科恩实验室
原文链接:https://mp.weixin.qq.com/s/fvnvh25VaHgproPvVT6LDg
2020-11-9 09:51
0
雪    币: 918
活跃值: (1900)
能力值: ( LV3,RANK:30 )
在线值:
发帖
回帖
粉丝
18
之前打算搞一个相似的项目,利用深度学习对恶意样本进行家族归类,其实能做的东西还是不少的
2020-11-9 10:17
0
雪    币: 1319
活跃值: (1960)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
19
mb_foyotena 并不能完美还原,源码和二进制存在多映射关系,人工尚且无法做到。此外,想训练模型得依靠大量的样本输入,最终泛化效果取决于你样本是否足够全面,不是你想的那么简单
是否尝试像VTIL这种中间语言翻译缩小训练范围。
2020-11-9 10:54
0
雪    币: 1931
活跃值: (442)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
20
wuxiwudi 之前打算搞一个相似的项目,利用深度学习对恶意样本进行家族归类,其实能做的东西还是不少的
这个跟yara类的规则差不多了
2020-11-9 11:31
0
雪    币: 918
活跃值: (1900)
能力值: ( LV3,RANK:30 )
在线值:
发帖
回帖
粉丝
21
TopGreen 这个跟yara类的规则差不多了
后面有点像,相当于提取一个已知样本族谱特征,对未知样本进行扫描,判断威胁程度,这样对一些使用模块化或者公共库编译的样本有概率直接检出,不过对新样本就无能为力了,核心其实就是这个族谱特征提取的过程
2020-11-9 12:47
0
雪    币: 687
活跃值: (320)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
22
比赛的时候,3秒攻下第一道题,这是人类无法达到的速度。
优势就是速度快,成本低(省下海量的人工成本)。当有大量样本的时候,AI可以过滤一遍。
要深入挖掘的时候,再人工参与。
2020-11-9 14:30
0
雪    币: 226
活跃值: (1419)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
23
Swrite NeurIPS-2020 论文解读:基于跨模态检索的二进制代码-源代码匹配 作者:腾讯科恩实验室 原文链接:https://mp.weixin.qq.com/s/fvnvh25VaHgproP ...
长见识了,原来已经有人实现了
2020-11-11 23:25
0
游客
登录 | 注册 方可回帖
返回
//