首页
社区
课程
招聘
[原创]一篇文章带你理解PE三表
发表于: 2019-4-21 15:14 10766

[原创]一篇文章带你理解PE三表

2019-4-21 15:14
10766

         刚刚结束春招,投了好几家公司,结果不是很理想,原因无外乎自身实力和行业寒冬。

         这次春招面试题主要集中在PE相关,HOOK技术和DLL注入技术,还有一些杂七杂八的问题上面。从中也暴露处自己技能栈上的不足,通过这一段时间的沉淀希望可以补足。

         四月初就开始谋划写一系列的文章,但是加上在校实习比较忙碌,所以进展很慢,这些文章主要面向受众是那些入坑新人,借此希望能够让那些小伙伴能够少走弯路。同时也能多多总结自身的不足,共同进步。

         这系列文章取啥名?想了很久,决定参考某一师傅的系列文章---<一篇文章带你·····>,主要希望总结PE文件,HOOK,DLL注入,以及其他方面的知识,主要的参考文献是看雪加密解密第四版,以及其他资料。(打了广告,希望相关师傅记得打点广告费)

         这系列是我边总结技术边写文章,可能部分内容会以后补全技能栈,例如R0下的DLL注入等。但是尽量做到不鸽,关于代码,不提供自己写的代码,原因有二,第一,这些代码网上都有现成的,我只是理解修改部分罢了,也怕自己的代码误导小伙伴们。第二,拒绝伸手党

         由于自身能力有限,文章中难免出现错误,希望各位师傅少喷我。

         DLL动态链接库文件主要实现代码的复用。当一个程序调用DLL文件中的数据和代码的时候,有两种链接方式,第一种是隐式链接,这个过程是由windows装载器完成的,另外一种是显式链接,通过使用LoadLibrary和GetProcAddress这两个API函数实现的。

         当隐式的调用一个API函数的时候,同样也存在类似于LoadLibrary和GetProcAddress函数的功能实现,但是,这个操作是由windows装载器完成的,所以称为隐式链接,当程序使用隐式链接调用DLL代码的时候,装载器需要完成以下几个步骤(IAT填充):

         程序一般使用CALL-JMP的方式调用API方式,显然,这种方式是低效的,不然直接使用CALL高效,之所以使用这种方式,因为编译器无法判断哪些调用是API,哪些调用是普通函数。JMP的地址其实是IAT所在的地址VA。

         在PE文件可选头中,数据目录项的第一个成员指向的导入表。可以看到2040是一个RVA,这是在内存中的偏移量。我们需要将它转化为文件偏移。

         我们可以看到2040位于.rdata段中。可以使用公式section[i].PointOfRawData+(offset-VirtuallAddress)来计算文件偏移。计算出来的文件偏移为600+(2040-2000)=640.也就是说PE导入表在文件中640H的地方。

         同样的,我们可以使用代码实现这一个需求,代码如下:

         这时候,我们需要用到新的知识IMAGE_IMPORT_DIRECTORY结构。简称IID。IID结构对应着一个被隐式链接的DLL,每个IID的结束标志为NULL。关于IID结构:

         需要我们关心的成员有三个:

         OriginalFirstThunk和FirstThunk都是指向一个名为IMAGE_THUNK_DATA的结构体,其中被OriginalFirstThunk指向的是导入名称表(INT),被FirstThunk指向的是导入地址表(IAT)。而INT和IAT同时都指向一个新的结构IAMGE_IMPORT_BY_NAME。

         接下来,依照IMAGE_IMPORT_DESCRIPTOR来解析上面我们在文件中获取的IID数据如下。但是这些都是小端序显示的,首先需要转化为大端序,然后在使用上面讲的方法将其转化为文件偏移。

         首先查看774和7B4对应的DLL名称。

         然后再来查看一下OriginalFirstThunk对应的INT数据,在此之前,我们需要了解一下IMAGE_THUNK_DATA这个数据结构。但是u1是一个共用体,怎么判断IAT中的IMAGE_THUNK_DATA中存储的是Ordinal,还是AddressOfData?当IMAGE_THUNK_DATA最高位为1的时候,表示序号导入,否则为字符导入,此时保存的是AddressOfData,一个指向IMAGE_IMPORT_BY_NAM的RVA。一个IMAGE_THUNK_DATA对应一个函数(_IMAGE_IMPORT_BY_NAME)。

         在上面,我们了解了IMAGE_THUNK_DAT结构,而且知道了OriginalFirstThunk指向的是IMAGE_THUNK_DAT(INT)。所以,在文件偏移68Ch处,找到数据10210000,同样的,我们将它转化端序和文件偏移得到10210000--->2110--->710。在710处,我们应该可以得到IMAGE_IMPORT_BY_NAME这个结构体。现在,我们需要了解一下这个结构体的形式.

         了解完IMAGE_IMPORT_BY_NAME这个结构体,在文件710H处查看IMAGE_IMPORT_BY_NAME

         由于IID是一个双桥结构,刚刚我们通过OriginalFirstThunk间接通过IAT寻找到了IMAGE_IMPORT_BY_NAME。接下来使用FirstThunk寻找IMAGE_IMPORT_BY_NAME。可以发现两处都是指向同一个地址,而且这个地址就是IMAGE_IMPORT_BY_NAME

         编程实现文件中导入表获取,首先利用ReadFile函数将对象PE文件读入内存,这里可以使用多种方法读取。

         然后在数据目录第二项获取导入表的RVA。但是需要注意的是,必须加上文件在内存中的基地址,这样才是IID的地址。

         接下来是遍历IMAGE_IMPORT_DESCRIPTOR,因为IMAGE_IMPORT_DESCRIPTOR个数是和隐式链接的dll数一致的,但是,IID结束的标志为全0。所以只需要比较从第一个IID开始,如果有sizeof(IMAGE_IMPORT_DESCRIPTOR)个0的话,说明IID遍历结束

         打印DLLNAME,利用IMAGE_IMPORT_DIRECTORY->Name打印DllName。同上,需要加上基地址

         获取OriginalFirstThunk。和IID一样的原理遍历INT。

         之前说过根据OriginalFirstThunk高位是否为1判断导入方式,如果高位为1,使用序号的方式导入,否则按照函数名称导入

         我们都知道DLL是实现代码复用的重要方式,同时为了让调用DLL的PE文件(包括exe和dll)知道哪些函数是可以被复用的,所以dll会将可以被导出的函数的RVA值保存在导出表中。

         导出表事实上并不只是存在于DLL中,同时也可能存在于exe中。当一个PE文件被装载的时候,装载器会将PE文件中所有被登记的DLL一起载入,然后根据DLL的导出表对导入表中的IAT进行修正。

         导出表描述信息位于可选头的数据目录中的第一项。4000是导出表的RVA值,需要转化为FOA值。利用导入表的公式section[i].PointOfRawData+(RVA-VirtuallAddress)进行计算,得到FOA为C00.

         这时候,我们在文件中的C00处就可以找到我们导出目录了。我们现在需要了解一下导出目录IMPORT_EXPORT_DIRECTORY这个结构.其中我们需要重点关心的成员有以下几个。

         如下图是导出表的数据。可以看到32 40 00 00对应的是Name这个成员变量的RVA,我们调整端序,计算FOA(32400000--->00004032--->C32)可到Name在文件中的位置是C32.正好指向DllDemo.dll这个字符串。根据上述方法解析导出表数据如下

         【重点】PE装载器调用GetProcAddress来填充IAT,这时候需要了解GetProcAddress原理。

         首先需要在数据目录中获取导出表地址,需要注意的是这个地址是个RVA的值,需要加上BaseAddress。

         由于AddressOfNames,AddressOfFunctions,和AddressOfNameOrdinals都是RVA值,且都需要进程RVA->FOA的转化。所以如果要获取这三个成员变量的FOA的话需要进行两部,第一将RVA转化为FOA,然后加上BaseAddress。

         因为NumberOfFunctions>=NumberOfNames,适合放在外部循环进行比较。

         在提到关于GetProcAddress用法时说道,如果目标函数在AddressOfFuns被找到记录其数组索引。然后在导出函数序号数组中寻找对应序号。

         接着取出我们的需要序号,以及在导出函数地址数组对应的序号所对应的导出函数地址

         PE装载的时候,大多选用相对地址RVA,这样做的原因有二,第一是为了方便装载器,二是为了重定位。那么什么时候需要重定位呢,或者说重定位的条件是什么呢,我们应该知道每个进程内存是相互独立的,也就是说exe文件发生重定位的可能性不高,这样看来由于DLL的装载位置的不同,DLL文件发生重定位的可能性就比较高了,因为同一个进程空间里面可能存在多个DLL文件,有时候多个dll设定的原始的基地址是相同的,但是对于操作系统来说这是不允许存在的,所以需要对他们进行重定位。

         这时候就需要将那些需要被重定位的数据保存在一张表里面,然后取出里面的地址,利用某一个特定的公式,重新计算加载地址即可。

         重定位表位于数据目录项中第6项,通过上述的方法可以定位到文件中重定位表地址为0xE00

         接下来,我们开始解析重定位表,在解析之前,需要了解重定位表结构。重定位表是由多个IMAGE_BASE_RELOCATION结构体构成的。有三个成员变量

         如图所有,解析如下:

         得到需要重定位的数据为00402000和00403030,假设当前基地址为00400000,目标基地址为01000000 则重定位后的地址为01002000和01003030

         首先获取重定位表地址

         获取每个重定位数组的RVA地址和大小,原因有二,第一,获取完TypeOffset的第12位需要加上VirtualAddress才是真正的RVA,第二,sizeofBlock是指向下一个重定位数组(块)的重要参数。

         定位到重定位数组,每个Typeoffset在偏移处第八个字节,所以需要加8。

         解析TypeOffset

         利用sizeofblock定位下一个重定位表

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
DWORD RvaToOffset(DWORD ImageAddr, LPVOID lpBaseAddress)
{
  //NtHeader
  PIMAGE_NT_HEADERS pNtHeaders = (PIMAGE_NT_HEADERS)((ULONG_PTR)lpBaseAddress + ((PIMAGE_DOS_HEADER)lpBaseAddress)->e_lfanew);
  //获取第一个节区的RawtoData
  PIMAGE_SECTION_HEADER pSectionHeader = (PIMAGE_SECTION_HEADER)(((ULONG_PTR)&pNtHeaders->OptionalHeader) + pNtHeaders->FileHeader.SizeOfOptionalHeader);
  if (ImageAddr > pNtHeaders->OptionalHeader.SizeOfImage)
  {
      printf("ImageAddr Is Error\n");
      return NULL;
  }
  if (ImageAddr < pSectionHeader[0].PointerToRawData)
  {
      return ImageAddr;
  }
  DWORD i = 0;
  for (i = 0; i < pNtHeaders->FileHeader.NumberOfSections; i++)
  {
      //节区下限
      DWORD lower = pSectionHeader[i].VirtualAddress;
      //节区上线
      DWORD maxer = pSectionHeader[i].VirtualAddress + pSectionHeader[i].Misc.VirtualSize;
      if (ImageAddr >= lower && ImageAddr < maxer)
      {
          return pSectionHeader[i].PointerToRawData + (ImageAddr - pSectionHeader[i].VirtualAddress);
      }
  }
}
typedef struct _IMAGE_IMPORT_DESCRIPTOR {
    union {
        DWORD Characteristics;
        DWORD OriginalFirstThunk;            //INT(RBA)
    };
    DWORD TimeDateStamp;                    //时间戳
    DWORD ForwarderChain;
    DWORD Name;                                //DllName(RVA)
    DWORD FirstThunk;                        //IAT(RVA)
} IMAGE_IMPORT_DESCRIPTOR;
typedef struct _IMAGE_THUNK_DATA
{
    union 
    {
         PBYTE ForwarderString;
         PDWORD Function;     //被导入的函数的入口地址
         DWORD Ordinal;       // 该函数的序数
         PIMAGE_IMPORT_BY_NAME AddressOfData;   // 一个RVA地址,指向IMAGE_IMPORT_BY_NAME
     }u1;
} IMAGE_THUNK_DATA32;
typedef struct _IMAGE_IMPORT_BY_NAME {
     WORD    Hint;       //函数需序号
     BYTE    Name[1];    //函数名称
 } IMAGE_IMPORT_BY_NAME, *PIMAGE_IMPORT_BY_NAME;

[注意]传递专业知识、拓宽行业人脉——看雪讲师团队等你加入!

收藏
免费 5
支持
分享
最新回复 (10)
雪    币: 47147
活跃值: (20410)
能力值: (RANK:350 )
在线值:
发帖
回帖
粉丝
2
由于重复发了,删除其他,留了一帖。

2019-4-21 16:12
1
雪    币: 452
活跃值: (6128)
能力值: ( LV12,RANK:580 )
在线值:
发帖
回帖
粉丝
3
我是二楼 我要沙发
2019-4-21 18:37
0
雪    币: 1725
活跃值: (27)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
4
小白一样的我先赞一个
2019-4-22 09:07
0
雪    币: 323
活跃值: (13970)
能力值: ( LV13,RANK:606 )
在线值:
发帖
回帖
粉丝
5
赞!!
2019-4-23 07:56
0
雪    币: 23080
活跃值: (3432)
能力值: (RANK:648 )
在线值:
发帖
回帖
粉丝
6
2019-4-26 10:03
0
雪    币: 74
能力值: ( LV1,RANK:0 )
在线值:
发帖
回帖
粉丝
7
当程序使用隐式链接调用DLL代码的时候,装载器应该是先定位定位IID,寻找Name吧?要不然怎么知道要加载哪个dll文件?
2019-4-26 21:42
0
雪    币: 300
活跃值: (2447)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
8
mark
2019-4-28 08:43
0
雪    币: 242
活跃值: (80)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
9
mark 学习下先
2019-4-28 15:29
0
雪    币: 1
活跃值: (95)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
10
从dll注入那看你的文章,看到了这里。我觉的导入表关键是双桥结构,映像加载时桥2断裂,重新填充为函数的真实地址;导出表关键是,导出索引的初始值,还有就是从导出名称索引找到导出函数地址索引,比如病毒用到的根据导出表找GetProcAddress的地址;重定位表关键是高4位和低12位。另外,想写地址无关的代码,汇编很简单,一个call,紧跟着一个pop,再计算一个sub,就得到了相对偏移,放到一个寄存器里当重定位的偏移就可以了。个人拙见。
最后于 2019-9-11 00:38 被5ilent编辑 ,原因: 错别字,见谅,
2019-9-11 00:37
0
雪    币: 498
活跃值: (2314)
能力值: ( LV12,RANK:356 )
在线值:
发帖
回帖
粉丝
11
5ilent 从dll注入那看你的文章,看到了这里。我觉的导入表关键是双桥结构,映像加载时桥2断裂,重新填充为函数的真实地址;导出表关键是,导出索引的初始值,还有就是从导出名称索引找到导出函数地址索引,比如病毒用到 ...
对,本来想写花指令有这个内容,没时间就没写了,层主总结很棒
2019-9-11 23:08
0
游客
登录 | 注册 方可回帖
返回
//