首页
社区
课程
招聘
[原创]打造自己的反汇编引擎——Intel指令编码学习报告(一)
发表于: 2008-10-22 00:22 83671

[原创]打造自己的反汇编引擎——Intel指令编码学习报告(一)

2008-10-22 00:22
83671
写在前面:
   
    学习Intel指令格式已经有近一个月了,本来想把整个反汇编引擎写完整之后再发布源代码和学习报告的,但是,最初的热情过后,剩下的就是辛苦劳动了,现在实在太累了,似乎有点写不下去的感觉了,所以我还是打算,边总结学习的过程,边完成整个反汇编引擎:一方面,希望论坛里对指令解码知识感兴趣的朋友,高手给些鼓励;另一方面,希望能和这些朋友们讨论程序中的bug,讨论整个反汇编引擎的架构(这个我会在后面的学习报告中详细说明我所了解的一些架构)。学习新的知识是一件很令人高兴和满足的事情,但是能和别人分享学习的经验,更令人快乐。
    学习指令编码格式的好处有很多,我在这里提一些吧:
    一、加深对指令的了解。并不是用汇编语言写出的程序速度就一定比其他高级语言快,或者说节省空间,现在大部分的编译器做得比一般的汇编语言初学者,甚至是有一定编程经验的人都好,对一些汇编指令有所了解后,可能利用这些指令写出符合特定条件的好的代码,不管是用在shellcode还是用在关键代码的性能优化方面都有好处。例如:Svin的教程中就有一个题目:
    用四个byte实现下列的算法:(opcode hack)
   IF ZF=1
   inc eax
   ELSE
   mov al,40
   再有,现在的高级语言因为执行效率的原因,一般都舍弃用leave和enter指令,然而这些指令有着空间的优势……等等,此外,学习了指令编码之后会对intel的寻址模式有一个更为深刻的了解。
    二、学习了指令编码可以软件保护中的很多技巧如花指令等有更深刻的了解。
    三、如果这些小的技巧实在是不值一提,那么如果想些一个虚拟机架构的话,就必须对这些指令有所了解。
    ……
    由于我是一个菜鸟,所以有很多说不清楚的地方,还希望高手指正,毕竟,讨论才是学习永恒的主题。本来打算,把这些学习报告发在新手区的,但是看到这个版块有一个专题,就发到这个地方了。很多高手可能想自己学习研究,我会提前把我找到的所有的资料都列在附件中。

实验反汇编引擎介绍:(原代码下载 dasm.rar
    引擎采用了最直观,当然也是最笨拙的方法,switch...case,代码虽然不够简练,但是执行效率和整体结构还是很清楚的,代码的解析和识别只剩下力气活了。
    反汇编引擎目前的进度:
    基本框架已经实现,能解析的指令大约200多条,2-byte的指令还不能解析,浮点指令和mmx指令的解析都还待完成。
   (2008.10.22更新:已经能正确解析所有常用指令(除特权指令,浮点指令,mmx指令之外的指令))
(2008.10.24更新:改正了解析C4,C5指令的一个小bug)
    测试程序:(CrackMe.exe为测试用的pe文件)
    我用了不久前学习pe文件格式的时候写的pe文件解析代码,提取了.text中的数据作测试用,pe文件的解析部分代码很丑,大家感兴趣的话,可以只看反汇编部分的代码,代码没有加注释,我想我会在后续的学习报告中详细解释每一个部分的代码。
     程序的运行方式:dasmMain.exe 待解析的pe文件 >out.txt 最好重定向到文件中看,输出的结构有点多。
     由于有些指令不能识别,导致实际的反汇编代码跟正确的比有些混乱,但是大部分代码还是正确的,我测试的输出结果如图:
     
     跟olly的结果比较一下:
     
     对得不是太齐,但是如果以后做成GUI的形式,因该没有什么问题了。实际的效果大家可以用不同的pe文件测试,当然,程序只是读文件的.text区,没有任何分析,实际效果,大家还是要对照地址来检查。

学习资料:
1、首推Svin的教程,英文原版: tutorial of opcode by svin.rar都是一些保存好的网页,大家可以权当链接使用。当然,论坛上也有翻译后的版本,大家可以找一找,不过还是推荐到原论坛看原帖。
2、The art of disassembly,英文原版: Art Of Disassembly.part1.rar Art Of Disassembly.part2.rar Art Of Disassembly.part3.rar,当然论坛里也有中文版的。
3、罗聪的《学习Opcode教程》: learningopcode.rar
4、指令列表: code table.rar,网上不同的版本很多,但是这个是我见到的做的最好的一份,实际的解码过程也是参照这个表做的,当然同时参考的少不了:
5、Intel® 64 and IA-32 Architectures Software Developer's Manual 2A Instruction Set Reference A-M.pdf
6、Intel® 64 and IA-32 Architectures Software Developer's Manual 2B Instruction Set Reference N-Z.pdf,上面两个就不传上来了,intel的网站上就有。

上面列出来的是能找到的所有关于intel指令编码的资料了,很多教程都不完整,或者没有实现一个真实的反汇编引擎,我想这也是为什么,我想把学习和实现反汇编引擎的经验写出来的原因之一,希望我能写出一个完整的学习过程来。

[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课

上传的附件:
收藏
免费 8
支持
分享
最新回复 (66)
雪    币: 202
活跃值: (57)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
2
明天开始写第一部分
2008-10-22 00:32
0
雪    币: 200
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
3
看看,不错,顶
2008-10-22 01:06
0
雪    币: 334
活跃值: (22)
能力值: ( LV4,RANK:50 )
在线值:
发帖
回帖
粉丝
4
[QUOTE=;]...[/QUOTE]
不错,顶一下
2008-10-22 01:33
0
雪    币: 7651
活跃值: (523)
能力值: ( LV9,RANK:610 )
在线值:
发帖
回帖
粉丝
5
[QUOTE=;]...[/QUOTE]
支持楼主!不容易啊
2008-10-22 08:08
0
雪    币: 205
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
6
支持LZ,争取弄个完整的引擎出来
2008-10-22 08:37
0
雪    币: 2056
活跃值: (13)
能力值: ( LV13,RANK:250 )
在线值:
发帖
回帖
粉丝
7
好文,感谢LZ,给的资料都很有参考价值。
2008-10-22 09:54
0
雪    币: 709
活跃值: (2420)
能力值: ( LV12,RANK:1010 )
在线值:
发帖
回帖
粉丝
8
嗯,好文.
最近对引擎也很感兴趣.楼主写的不错~~
2008-10-22 10:18
0
雪    币: 1593
活跃值: (766)
能力值: ( LV13,RANK:370 )
在线值:
发帖
回帖
粉丝
9
一、
你的代码1605行:
sprintf(DisplacementStr, " + %X", Register32[Base], *((int *)currentCode));
应该改成:
sprintf(DisplacementStr, "%s + %X", Register32[Base], *((int *)currentCode));

二、
ParseSIB()似乎没有考虑:
Base == 5 && Mod == 00 && Index == 4
的情况,Index == 4时,应该只有Displacement,寄存器那里应该是空的。

例如:1B 04 25 00 00 00 00
正确的反汇编应该是:SBB EAX, [00000000]
而不是(你的):SBB EAX, [EBP + 00000000]

三、
改了第一个bug后,1B 04 2D 00 00 00 00
反汇编结果是:sbb eax, dword ptr [ebpebp + 0]
这里错了。
2008-10-22 11:19
0
雪    币: 111
活跃值: (10)
能力值: ( LV4,RANK:50 )
在线值:
发帖
回帖
粉丝
10
好文,先顶再看!
2008-10-22 13:36
0
雪    币: 846
活跃值: (221)
能力值: (RANK:570 )
在线值:
发帖
回帖
粉丝
11
我讨厌SWITCH  CASE语句
为什么不直接查函数表,或者造成统一的数据结构

用这种语句来实现,你添加得不方便,别人看也不方便。另外2BYTE和3BYTE的OPCODE是不连续的,这样编译就会生成更多的分支,当你解释一些大量使用浮点运算或者MMX的程序时,分支预测错误的概率就增加了
2008-10-22 14:00
0
雪    币: 202
活跃值: (57)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
12
[QUOTE=luocong;524461]一、
你的代码1605行:
sprintf(DisplacementStr, " + %X", Register32[Base], *((int *)currentCode));
应该改成:
sprintf(DisplacementStr, "%s + %X"...[/QUOTE]

多谢罗聪,没想到能招来大牛帮忙找bug。你的教程让我在入门的路上少走了很多弯路,真的希望能看到你完成那份教程。
您指出的问题我都改了,不知道能不能检查一下修改后的代码。
一、这个部分其实应该这样该:
sprintf(DispalcementStr, "%X", *((int *)currentCode)); 把一个指令的各个部分分解,分别解析各个部分,然后再合成是我在编程过程中想出来的一个小技巧,那时候解析SIB的代码已经写好了,所以大致改写了一下没有认真检查。
二、这个特殊的组合我在学习的时候是注意到了的,只是代码没有写好,改正后的代码应该已经在合成的过程中把这个部分加进去了。
sprintf(SIBStr, "%s%s%s%s%s", BaseStr,
		(strlen(BaseStr) > 0 && strlen(ScaledIndexStr) > 0) ? " + " : "",
		ScaledIndexStr,
		(strlen(BaseStr) > 0 && strlen(ScaledIndexStr) > 0 &&   strlen(DisplacementStr) > 0) ? " + " : "",
		DisplacementStr);

这里如果BaseStr为空(Base == 5 Mod == 0)而且ScaledIndexStr为空(Index == 4)那么就只有displacement 了,相当判断了这种特殊的组合。
三、我把ScaledIndexStr的代码重新写了一下:
Index == 4 ? sprintf(ScaledIndexStr, "") : 
		(Scale ? sprintf(ScaledIndexStr, "%s * %d", Register32[Index], 1 << Scale) : 
		sprintf(ScaledIndexStr, "%s", Register32[Index]));

以前那种写法似乎没有把空串提取出来。

(改正后的代码放到原帖原来的地方了)。

总之,谢谢指正。
2008-10-22 14:21
0
雪    币: 202
活跃值: (57)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
13
多谢提意见,这个就是我想和大家讨论的关于反汇编体系结构的架构问题,当初学习完prefix, opcode, ModR/M ,SIB 等之后,要写反汇编引擎的时候如何解析各条指令,怎么知道这条指令有多少操作数,操作数是寄存器还是内存地址,立即数大小如何获得等等便成了一个最大的问题(这个在任何教程中都没有提到),我查看了我能找到的反汇编引擎(主要ollydbg自带的,还有Pvdasm),最后还是选择了一个比较直观的方法。因为表格设计建立和设计所需要费的功夫太大,而且要求也高,解析过程能中不能够达到我边解析指令,边重新了解学习指令的目的。

当然我认为一个好的反汇编引擎是应该用查表的方式的,但不是ollydbg自带的那种表,那种表查询时需要时间的。一个好的反编译表应该是这样的:
1、指令编码可以作为表格的索引,直接能找到表项。
2、表的内容尽量简练,ollydbg的反汇编引擎的表项有很多冗余,用Svin的话来说,反汇编不是查出来的,是解析出来的。
3、涵义够简练,直接,能很方便扩充,和修改。
4、最好能在汇编过程中使用。

我真的希望能有一个比较好的汇编表方案,但是这实在需要一些技巧,希望大家讨论。

最后给上一篇关于ollydbg自带的反汇编引擎的指令表的分析文章,不知道是不是论坛里某位大牛写的:(题目为:x86机器码识别及其反汇编算法)
http://linxer.bokee.com/4277473.html
2008-10-22 14:37
0
雪    币: 202
活跃值: (57)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
14
2008.10.22更新:已经能正确解析所有常用指令(除特权指令,浮点指令,mmx指令之外的指令)
2008-10-22 22:06
0
雪    币: 2110
活跃值: (21)
能力值: (RANK:260 )
在线值:
发帖
回帖
粉丝
15
开源项目NASM带有一个交互式的反汇编引擎。

借用开发者在文档中的一句话,“手中有一份INTEL的指令码表而不能将它派上更多的用场,总觉得有些过意不去,所以除了汇编器外,我们提供了这个反汇编器”

有兴趣可以参考一下他们的源代码。
呵呵。
2008-10-22 22:14
0
雪    币: 5275
活跃值: (451)
能力值: (RANK:1170 )
在线值:
发帖
回帖
粉丝
16
罗老对这个比较有心得
2008-10-22 22:33
0
雪    币: 202
活跃值: (57)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
17
看过了,那张表设计得相当不错,很直观。什么时候决定了写一个比较优美的反编译器的话,设计一张表那是必须的。
不过,只是为了学习一下intel汇编指令格式,顺便学习一下各种指令的用法。从没有想过去写一个和现有的一些有着大量应用的成熟的反汇编引擎可以比拟的东西出来。学习用的工具而已,就像当初学pe格式一样,写些代码,学习的效果格外不一样,比光看强多了。

看来感兴趣的人不是太多,但是还是要写下去。我想最后应该有一篇总结现有汇编/反汇编开源框架的文章才对。
2008-10-23 10:17
0
雪    币: 332
活跃值: (30)
能力值: ( LV12,RANK:460 )
在线值:
发帖
回帖
粉丝
18
最近学习反汇编的人好像很多
2008-10-23 13:30
0
雪    币: 2110
活跃值: (21)
能力值: (RANK:260 )
在线值:
发帖
回帖
粉丝
19
我又想起以前看过的一本书,书名叫《硬件编程接口与系统软件实现》,朱春森著,北京大学出版社。

此书的附录B有一个我见过最实用的指令码表,我没看过OD的反汇编引擎,不知道它的解码是怎么做的,但我想绝对不会超过此书中这张表格的。

可惜这本书没有电子档。抑或有但我没找到。
2008-10-23 18:47
0
雪    币: 558
活跃值: (43)
能力值: ( LV12,RANK:220 )
在线值:
发帖
回帖
粉丝
20
SUPPORT
2008-10-23 22:04
0
雪    币: 245
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
21
严重支持楼主,学习一下

辛苦活,多多努力
2008-10-23 22:18
0
雪    币: 346
活跃值: (1963)
能力值: ( LV6,RANK:90 )
在线值:
发帖
回帖
粉丝
22
学习越来越深入了,高手论剑我的学招
2008-10-23 23:21
0
雪    币: 163
活跃值: (41)
能力值: ( LV7,RANK:100 )
在线值:
发帖
回帖
粉丝
23
不错,顶一下。
我现在也在学习这部分的内容呢。
2008-10-24 21:40
0
雪    币: 200
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
24
看看,不错,顶
2008-11-5 17:17
0
雪    币: 200
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
25
看看,不错,顶
2008-11-5 17:17
0
游客
登录 | 注册 方可回帖
返回
//