注释:附件为DOC文档
前言
该文章前半部分讲解整个PE的结构。然后我们来解析一段程序字节码来加深PE结构的理解。
天象独行
注意:该文章说明的是32bit的PE结构。本质上64bit 结构(PE32+)与32bit结构上没有区别。区别在于修改了几个域,将原来的域扩展到64bit而已。
PE结构简单来说就是由一系列有组织的数据的集合组成的。下面我们直接来看下图来了解PE文件的基本结构框架。
我们先看图当中右边的部分,我们可以看到整个PE结构由DOS头,PE头,节表(因为翻译的不同,部分文章当中用“块”表示,同一个含义),节内容组成。接下来,我们分别来看看这些结构有什么作用。
第一部分Dos 头主要是为了兼容DOS系统所遗留下来的产物。它里面包含了“DOS MZ头”和“DOS Stub”两个部分。其中DOS MZ头它的定义数据结构名称为IMAGE_DOS_HEADER。
下图为该数据结构的描述。DOS Stub 当中包含了一些DOS指令。
第二部分PE头的数据结构定义为IMAGE_NT_HEADERS。(如下图查看)
数据结构IMAGE_NT_HEADERS当中包含了Signature,IMAGE_FILE_HEADER,IMAGE_OPTIONAL_HEADER32,IMAGE_DATA_DIRECTORY。当中后三个包含的内容本身也是一个数据结构(数据结构当中嵌套数据结构形式)
PE头标志Signature是标志着PE头的开始位置。占位四个字节,这个位置的地址保存在DOS MZ头当中最后一个元素(IMAGE_DOS_HEADER.e_lfanew)。
Signature标识之后紧接着就是标准PE头内容。整个IMAGE_FILE_HEADER数据结构(标准通用对象文件格式COFF)占位20字节。该结构当中记录了PE文件的全局属性详细如下图:
该结构同样是定义了一些属性。详细如下图:
在扩展PE头数据结构当中最后一个元素“DataDirectory”定义了数据目录项。数据目录项本身也是一个数据结构。其中记录了不同类型的数据的目录信息。比如:导出表,导入表,资源,重定位表等。下面我们来看看具体结构:
PE头下面紧接着就是节表,节表当中记录着特定的节有关的信息。(节的属性,节的大小,在文件和内存中的起始位置)
节表当中节的数量IMAGE_FILE_HEADER.NumberOfSections。下面我们来看看节表的数据结构的定义:
下面我们来打开一个应用程序来看看他们的PE结构
注释:下面标注出来常用的内容
首先我们来查看一下DOS头内容。着重查看“MZ标识”和“PE头位置”。我们可以在DOS MZ 数据结构的定义当中可以知道”MZ”标志位是第一个元素,并且类型属于WORD。占用两个字节。“PE头位置”定义在最后一个元素,类型是DWORD。占用四个字节。那么我们查看下图:
DOS Strub 是存放一些DOS指令,这里我们不去查看它。既然我们通过DOS MZ数据结构的最后一个元素知道了PE头的地址(起始地址00 00 00 b0)那么现在我们跳转进入PE头来查看。
我们都知道PE头的数据结构IMAGE_NT_HEADERS。当中定义了三个元素。DWORD类型元素Signature,数据结构类型IMAGE_FILE_HEADER(标准PE头),数据结构类型IMAGE_OPTIONAL_HEADER32(扩展PE头)。其中标准PE头占用20个字节,扩展PE头占用216个字节。下面我们来看看PE头的大体位置:
注释:因为Intel兼容机采用的是小端法。所以存储在硬盘文件当中有效位放在最低位。举例:PE头标签在硬盘/(内存)存储位00004550h
现在我们从图中大概可以了解了PE头文件大体的位置,那么现在我们逐步分析一下其中内容:
PE头标签(IMAGE_NT_HEADER.Signature)的RVA地址为0000h,且为DWORD类型。所以占用四个字节。通过查看发现。该位置存储的内容为十六进制值为“00004550h”
标准PE头(IMAGE_NT_HEADER.FileHeader)的RVA地址为00004h,且它是一个数据结构,占位是20个字节。那么我们来看看该数据结构IMAGE_FILE_HEADER。
IMAGE_FILE_HEADER.Machine 是标准PE头当中的第一个元素。它是一个WORD数据类型。表示PE文件的运行平台。从图中我们可以知道它的值为014Ch。它的具体含义如下表:
IMAGE_FILE_HEADER.NumberOfSections 元素是一个WORD类型数据,且RVA的值为0006h。它表示的含义是PE中节的数量。我们来在图中查看一下:
IMAGE_FILE_HEADER.TimeDateStamp 元素是一个DWORD数据类型,且RVA的值为0008h。它表示编译器创建此文件时的时间戳。值为“5F8D9A37h”如下查看
下面我们在来看看IMAGE_FILE_HEADER.Characteristics 元素,它是一个单字数据类型。偏移量为0016h。表示为文件属性标志字段。它是用二进制的位为1表示具备对应位置的权限。详细如下表:
标准PE头之后紧接着就是扩展PE(IMAGE_OPTIONAL_HEADER32)头。同样对照着数据结构定义来寻找具体元素位置。这里我们着重来看看扩展PE头当中最后一个元素”DataDirectory”它同样也是一个数据结构。表示数据目录(IMAGE_DATA_DIRECTORY)
数据目录当中包含了不同类型的数据的目录信息。它是由16个IMAGE_DATA_DIRECTORY结构组成的。
下图描述了数据目录的起始位置:
数据目录项紧接这就是节表的内容,之后就是节内容。下面就不继续查看。
前言
该文章第一部分表述导入表的概念,第二部分讲解导入表的结构,第三部分举例在PE文件当中找到导入表的内容。
注意:该文章不涉及延迟加载导入表等内容
在讲解导入表之前,我们先想一想,在我们使用高级语言编写程序的时候是不是有个导入的操作。E.g Python 当中可以使用import 来导入其他库来使用库当中的函数。那么导入表是不是也是这样一个作用呢?答案是肯定的。导入表当中的数据就是指定了PE文件调用外来函数(这里外来函数是指不在本程序当中定义的函数)的数目,这些外来函数在哪些动态链接库当中等等。Windows 加载器在运行PE时会通过导入库将动态链接库一并加载到进程的地址空间当中。
导入表是数据目录中注册的数据类型。描述信息位于数据目录的第2个目录项
导入表的当中每20个字节为一组数据结构,该数据结构名称为IMAGE_IMPORT_DESCRIPTOR(导入表描述符)详细内容如下图:
关键字“union” 表示Characteristics 和 OriginalFirstThunk 任意一个元素。这个结构体一共5个元素。每个元素的数据类型“dd” 占用4个字节。(注释:元素Name1保存着导入动态链接库的名称)其中我们需要关注的是第一个元素OriginalFirstThunk 和 第5个元素FirstThunk 。它们指向了另外一个数据结构。其中元素OriginalFirstThunk 指向的数组称之为INT。元素FirstThunk 指向的数据结构称之为IAT。
数组INT当中的每一项均是一个结构,该结构名称为IMAGE_THUNK_DATA结构。如下图:
IMAGE_THUNK_DATA是一个双字,之后用双字“0”作为结束标志。
其中IMAGE_THUNK_DATA当中的双字指向了另外一个结构体IMAGE_IMPORT_BY_NAME(即IMAGE_THUNK_DATA保存着通往IMAGE_IMPORT_BY_NAME的RVA)
IMAGE_IMPORT_BY_NAME结构体定义如下:
IAT (函数地址表)同样也是数据目录当中注册的数据类型,描述信息保存在数据目录项中第13个目录项。
IAT的结构体为IMAGE_THUNK_DATA的数组
导入表当中第一个元素和第五个元素保存着通往INT和IAT 的偏移地址。在INT 以及IAT 当中保存在导入的动态链接库的信息。
接下来,我们用一个PE程序来查找一个PE文件的导入表的具体位置。
通过DOS MZ头的最后一个元素来定位PE头的位置:
注释:在硬盘文件当中,PE文件的地址都是从0开始计算的。
导入表信息注册在PE扩展头当中的数据目录项的第二个位置当中。数据目录项的文件偏移地址为78h。所以在文件中数据目录项的地址为b0h + 78h = 128h。
3.3.1;查看文件偏移
3.3.2;计算导入表在文件当中的位置
FOA = 0000002010h – 0000002000h + 0000000600h = 610h
注释:计算方式参考文章:http://www.nvnv.xyz/newsinfo/804196.html
现在我们知道了导入表的地址,那么根据导入表描述符的定义,我们知道一个导入表当中的结构体占用了20个字节。导入表详细如下图:
IMAGE_IMPORT_DESCRIPTOR.OriginalFirstThunk,该元素有两种不同的解释:
1;双字最高位为0,表示导入符号是一个数值,该数值是一个RVA。
2;双字最高位为1,表示导入符号是名称。
如图,我们查看到我们案例当中的最高位为0,那么该数值是一个RVA。
3.7;定位INT文件位置
我们回顾一下INT是一个数组,其中元素大小为双字,以双字0为结束符。通过以知的RVA计算出FOA。FOA=654h详细如下图:
INT当中每个双字元素,且保存着IMAGE_IMPORT_BY_NAME RVA地址。同样计算出FOA=65Ch。
IMAGE_IMPORT_BY_NAME.Hint
IMAGE_IMPORT_BY_NAME.Name1 大小不确定,表示函数名字符串名称 。以“\0”作为字符串结束标志。
局部总结:截至目前,我们已经知道了。系统通过PE文件当中的PE扩展头最后一个元素数据目录项当中的第二个元素保存着导入表的RVA和数据库大小的信息。通过该导入表RVA可以定位到导入表的内容。导入表由多个导入表描述符IMAGE_IMPORT_DESCRIPTOR组成。每个导入表描述符由20个字节组成,最后由20个0字节作为结束符号。导入表描述符的第一个元素保存着一个RVA地址。该地址是指向了结构体IMAGE_THUNK_DATA。IMAGE_THUNK_DATA结构体本质上是一个双字的结构。该结构保存着结构体IMAGE_IMPORT_BY_NAME。这个结构体当中保存着需要导入函数的编号以及函数名称。
[注意]传递专业知识、拓宽行业人脉——看雪讲师团队等你加入!
最后于 2021-1-7 10:47
被天象独行编辑
,原因: