首页
社区
课程
招聘
8
[原创]打造自己的反汇编引擎——Intel指令编码学习报告(一)
发表于: 2008-10-22 00:22 84614

[原创]打造自己的反汇编引擎——Intel指令编码学习报告(一)

2008-10-22 00:22
84614

[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课

上传的附件:
收藏
免费 8
支持
分享
赞赏记录
参与人
雪币
留言
时间
Youlor
为你点赞~
2024-1-4 02:11
C4skg
为你点赞~
2023-12-10 09:07
伟叔叔
为你点赞~
2023-11-24 00:53
QinBeast
为你点赞~
2023-9-4 00:00
PLEBFE
为你点赞~
2023-8-25 02:12
shinratensei
为你点赞~
2023-8-10 00:07
心游尘世外
为你点赞~
2023-7-29 00:21
飘零丶
为你点赞~
2023-7-16 00:24
最新回复 (66)
雪    币: 202
活跃值: (57)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
2
明天开始写第一部分
2008-10-22 00:32
0
雪    币: 200
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
3
看看,不错,顶
2008-10-22 01:06
0
雪    币: 334
活跃值: (22)
能力值: ( LV4,RANK:50 )
在线值:
发帖
回帖
粉丝
4
[QUOTE=;]...[/QUOTE]
不错,顶一下
2008-10-22 01:33
0
雪    币: 7651
活跃值: (523)
能力值: ( LV9,RANK:610 )
在线值:
发帖
回帖
粉丝
5
[QUOTE=;]...[/QUOTE]
支持楼主!不容易啊
2008-10-22 08:08
0
雪    币: 205
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
6
支持LZ,争取弄个完整的引擎出来
2008-10-22 08:37
0
雪    币: 2056
活跃值: (13)
能力值: ( LV13,RANK:250 )
在线值:
发帖
回帖
粉丝
7
好文,感谢LZ,给的资料都很有参考价值。
2008-10-22 09:54
0
雪    币: 709
活跃值: (2420)
能力值: ( LV12,RANK:1010 )
在线值:
发帖
回帖
粉丝
8
嗯,好文.
最近对引擎也很感兴趣.楼主写的不错~~
2008-10-22 10:18
0
雪    币: 1583
活跃值: (891)
能力值: ( LV13,RANK:370 )
在线值:
发帖
回帖
粉丝
9
一、
你的代码1605行:
sprintf(DisplacementStr, " + %X", Register32[Base], *((int *)currentCode));
应该改成:
sprintf(DisplacementStr, "%s + %X", Register32[Base], *((int *)currentCode));

二、
ParseSIB()似乎没有考虑:
Base == 5 && Mod == 00 && Index == 4
的情况,Index == 4时,应该只有Displacement,寄存器那里应该是空的。

例如:1B 04 25 00 00 00 00
正确的反汇编应该是:SBB EAX, [00000000]
而不是(你的):SBB EAX, [EBP + 00000000]

三、
改了第一个bug后,1B 04 2D 00 00 00 00
反汇编结果是:sbb eax, dword ptr [ebpebp + 0]
这里错了。
2008-10-22 11:19
0
雪    币: 111
活跃值: (10)
能力值: ( LV4,RANK:50 )
在线值:
发帖
回帖
粉丝
10
好文,先顶再看!
2008-10-22 13:36
0
雪    币: 846
活跃值: (221)
能力值: (RANK:570 )
在线值:
发帖
回帖
粉丝
11
我讨厌SWITCH  CASE语句
为什么不直接查函数表,或者造成统一的数据结构

用这种语句来实现,你添加得不方便,别人看也不方便。另外2BYTE和3BYTE的OPCODE是不连续的,这样编译就会生成更多的分支,当你解释一些大量使用浮点运算或者MMX的程序时,分支预测错误的概率就增加了
2008-10-22 14:00
0
雪    币: 202
活跃值: (57)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
12
[QUOTE=luocong;524461]一、
你的代码1605行:
sprintf(DisplacementStr, " + %X", Register32[Base], *((int *)currentCode));
应该改成:
sprintf(DisplacementStr, "%s + %X"...[/QUOTE]

多谢罗聪,没想到能招来大牛帮忙找bug。你的教程让我在入门的路上少走了很多弯路,真的希望能看到你完成那份教程。
您指出的问题我都改了,不知道能不能检查一下修改后的代码。
一、这个部分其实应该这样该:
sprintf(DispalcementStr, "%X", *((int *)currentCode)); 把一个指令的各个部分分解,分别解析各个部分,然后再合成是我在编程过程中想出来的一个小技巧,那时候解析SIB的代码已经写好了,所以大致改写了一下没有认真检查。
二、这个特殊的组合我在学习的时候是注意到了的,只是代码没有写好,改正后的代码应该已经在合成的过程中把这个部分加进去了。
1
2
3
4
5
sprintf(SIBStr, "%s%s%s%s%s", BaseStr,
        (strlen(BaseStr) > 0 && strlen(ScaledIndexStr) > 0) ? " + " : "",
        ScaledIndexStr,
        (strlen(BaseStr) > 0 && strlen(ScaledIndexStr) > 0 &&   strlen(DisplacementStr) > 0) ? " + " : "",
        DisplacementStr);

这里如果BaseStr为空(Base == 5 Mod == 0)而且ScaledIndexStr为空(Index == 4)那么就只有displacement 了,相当判断了这种特殊的组合。
三、我把ScaledIndexStr的代码重新写了一下:
1
2
3
Index == 4 ? sprintf(ScaledIndexStr, "") :
        (Scale ? sprintf(ScaledIndexStr, "%s * %d", Register32[Index], 1 << Scale) :
        sprintf(ScaledIndexStr, "%s", Register32[Index]));

以前那种写法似乎没有把空串提取出来。

(改正后的代码放到原帖原来的地方了)。

总之,谢谢指正。
2008-10-22 14:21
0
雪    币: 202
活跃值: (57)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
13
多谢提意见,这个就是我想和大家讨论的关于反汇编体系结构的架构问题,当初学习完prefix, opcode, ModR/M ,SIB 等之后,要写反汇编引擎的时候如何解析各条指令,怎么知道这条指令有多少操作数,操作数是寄存器还是内存地址,立即数大小如何获得等等便成了一个最大的问题(这个在任何教程中都没有提到),我查看了我能找到的反汇编引擎(主要ollydbg自带的,还有Pvdasm),最后还是选择了一个比较直观的方法。因为表格设计建立和设计所需要费的功夫太大,而且要求也高,解析过程能中不能够达到我边解析指令,边重新了解学习指令的目的。

当然我认为一个好的反汇编引擎是应该用查表的方式的,但不是ollydbg自带的那种表,那种表查询时需要时间的。一个好的反编译表应该是这样的:
1、指令编码可以作为表格的索引,直接能找到表项。
2、表的内容尽量简练,ollydbg的反汇编引擎的表项有很多冗余,用Svin的话来说,反汇编不是查出来的,是解析出来的。
3、涵义够简练,直接,能很方便扩充,和修改。
4、最好能在汇编过程中使用。

我真的希望能有一个比较好的汇编表方案,但是这实在需要一些技巧,希望大家讨论。

最后给上一篇关于ollydbg自带的反汇编引擎的指令表的分析文章,不知道是不是论坛里某位大牛写的:(题目为:x86机器码识别及其反汇编算法)
http://linxer.bokee.com/4277473.html
2008-10-22 14:37
0
雪    币: 202
活跃值: (57)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
14
2008.10.22更新:已经能正确解析所有常用指令(除特权指令,浮点指令,mmx指令之外的指令)
2008-10-22 22:06
0
雪    币: 2110
活跃值: (21)
能力值: (RANK:260 )
在线值:
发帖
回帖
粉丝
15
开源项目NASM带有一个交互式的反汇编引擎。

借用开发者在文档中的一句话,“手中有一份INTEL的指令码表而不能将它派上更多的用场,总觉得有些过意不去,所以除了汇编器外,我们提供了这个反汇编器”

有兴趣可以参考一下他们的源代码。
呵呵。
2008-10-22 22:14
0
雪    币: 5275
活跃值: (491)
能力值: (RANK:1170 )
在线值:
发帖
回帖
粉丝
16
罗老对这个比较有心得
2008-10-22 22:33
0
雪    币: 202
活跃值: (57)
能力值: ( LV9,RANK:370 )
在线值:
发帖
回帖
粉丝
17
看过了,那张表设计得相当不错,很直观。什么时候决定了写一个比较优美的反编译器的话,设计一张表那是必须的。
不过,只是为了学习一下intel汇编指令格式,顺便学习一下各种指令的用法。从没有想过去写一个和现有的一些有着大量应用的成熟的反汇编引擎可以比拟的东西出来。学习用的工具而已,就像当初学pe格式一样,写些代码,学习的效果格外不一样,比光看强多了。

看来感兴趣的人不是太多,但是还是要写下去。我想最后应该有一篇总结现有汇编/反汇编开源框架的文章才对。
2008-10-23 10:17
0
雪    币: 332
活跃值: (35)
能力值: ( LV12,RANK:460 )
在线值:
发帖
回帖
粉丝
18
最近学习反汇编的人好像很多
2008-10-23 13:30
0
雪    币: 2110
活跃值: (21)
能力值: (RANK:260 )
在线值:
发帖
回帖
粉丝
19
我又想起以前看过的一本书,书名叫《硬件编程接口与系统软件实现》,朱春森著,北京大学出版社。

此书的附录B有一个我见过最实用的指令码表,我没看过OD的反汇编引擎,不知道它的解码是怎么做的,但我想绝对不会超过此书中这张表格的。

可惜这本书没有电子档。抑或有但我没找到。
2008-10-23 18:47
0
雪    币: 558
活跃值: (43)
能力值: ( LV12,RANK:220 )
在线值:
发帖
回帖
粉丝
20
SUPPORT
2008-10-23 22:04
0
雪    币: 245
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
21
严重支持楼主,学习一下

辛苦活,多多努力
2008-10-23 22:18
0
雪    币: 555
活跃值: (2360)
能力值: ( LV7,RANK:100 )
在线值:
发帖
回帖
粉丝
22
学习越来越深入了,高手论剑我的学招
2008-10-23 23:21
0
雪    币: 163
活跃值: (41)
能力值: ( LV7,RANK:100 )
在线值:
发帖
回帖
粉丝
23
不错,顶一下。
我现在也在学习这部分的内容呢。
2008-10-24 21:40
0
雪    币: 200
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
24
看看,不错,顶
2008-11-5 17:17
0
雪    币: 200
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
25
看看,不错,顶
2008-11-5 17:17
0
游客
登录 | 注册 方可回帖
返回

账号登录
验证码登录

忘记密码?
没有账号?立即免费注册