首页
社区
课程
招聘
[原创]将微信小程序(.wxapkg)解包及将包内内容还原为"编译"前的内容的"反编译"器
发表于: 2018-3-19 17:24 62201

[原创]将微信小程序(.wxapkg)解包及将包内内容还原为"编译"前的内容的"反编译"器

2018-3-19 17:24
62201

众所周知,“跳一跳”在前几个月很火,并且出现了包括通过规则匹配/机器学习得到关键点坐标后模拟点击和通过源码获知加密方式伪造请求等方法。后者提到了如何获取含有源码的程序包 wxapkg ,以及使其能够在微信开发者工具中具体步骤(见参考链接1)。

当时我在对其他微信小程序应用进行尝试的时候发现,他们不同于小游戏,解包后的文件并不能通过简单增改就直接在微信开发者工具中运行,于是对小程序源代码=>wxapkg包内文件的具体转换关系进行了一定研究。

由前文知,我们可以通过查看 Android 手机中的/data/data/com.tencent.mm/MicroMsg/{User}/appbrand/pkg({User} 为当前用户的用户名,类似于 2bc**************b65)文件夹,获取最近使用过的微信小程序所对应的 wxapkg 包文件。

通过简单分析知,这个包由文件名+文件内容起始地址及长度信息开头,且各个文件明文存放在包内,通过类似于https://gist.github.com/feix/32ab8f0dfe99aa8efa84f81ed68a0f3e的脚本(这一个脚本处理包内二进制文件时有个小 bug ,将第78行的 w 改成 wb 即可),我们可以轻易获取包内文件。(具体解包细节可见于参考链接3)

但是这个包中的文件内容主要如下:

app-config.json
app-service.js
page-frame.html
其他一堆放在各文件夹中的.html文件
和源码包内位置和内容相同的图片等资源文件

微信开发者工具并不能识别这些文件,它要求我们提供由wxml/wxss/js/wxs/json组成的源码才能进行模拟/调试。

注意到app-service.js中的内容由

组成,很显然,我们只要定义自己的define函数就可以将这些 js 文件恢复到源码中所对应的位置。当然,这些 js 文件中的内容经过压缩,即使使用 UglifyJS 这样的工具进行美化,也无法还原一些原始变量名。

所有在 wxapkg 包中的 html 文件都调用了setCssToHead函数,其代码如下

阅读这段代码可知,它把 wxss 代码拆分成几段数组,数组中的内容可以是一段将要作为 css 文件的字符串,也可以是一个表示 这里要添加一个公共后缀 或 这里要包含另一段代码 或 要将以 wxss 专供的 rpx 单位表达的数字换算成能由浏览器渲染的 px 单位所对应的数字 的数组。

同时,它还将所有被 import 引用的 wxss 文件所对应的数组内嵌在该函数中的 _C 变量中。

我们可以修改setCssToHead,然后执行所有的setCssToHead,第一遍先判断出 _C 变量中所有的内容是哪个要被引用的 wxss 提供的,第二遍还原所有的 wxss。值得注意的是,可能出于兼容性原因,微信为很多属性自动补上含有-webkit-开头的版本,另外几乎所有的 tag 都加上了wx-前缀,并将page变成了body。通过一些 CSS 的 AST ,例如 CSSTree,我们可以去掉这些东西。

app-config.json 中的page对象内就是其他各页面所对应的 json , 直接还原即可,余下的内容便是 app.json 中的内容了,除了格式上要作相应转换外,微信还将iconPath的内容由原先指向图片文件的地址转换成iconData中图片内容的 base64 编码,所幸原来的图片文件仍然保留在包内,通过比较iconData中的内容和其他包内文件,我们找到原始的iconPath

在 page-frame.html 中,我们找到了这样的内容

可以看出微信将内嵌和外置的 wxs 都转译成np_%d函数,并由f_数组来描述他们。转译的主要变换是调用的函数名称都加上了nv_前缀。在不严谨的场合,我们可以直接通过文本替换去除这些前缀。

相比其他内容,这一段比较复杂,因为微信将原本 类 xml 格式的 wxml 文件直接编译成了 js 代码放入 page-frame.html 中,之后通过调用这些代码来构造 virtual-dom,进而渲染网页。
首先,微信将所有要动态计算的变量放在了一个由函数构造的z数组中,构造部分代码如下:

其实可以将[[id],xxx,yyy]看作由指令与操作数的组合。注意每个这样的数组作为指令所产生的结果会作为外层数组中的操作数,这样可以构成一个树形结构。通过将递归计算的过程改成拼接源代码字符串的过程,我们可以还原出每个数组所对应的实际内容(值得注意的是,由于微信的Token解析程序采用了贪心算法,我们必须将连续的}翻译为} }而非}},否则会被误认为是Mustache的结束符)。下文中,将这个数组中记为z

然后,对于 wxml 文件的结构,可以将每种可能的 js 语句拆分成 指令 来分析,这里可以用到 Esprima 这样的 js 的 AST 来简化识别操作,可以很容易分析出以下内容,例如:

此外wx:if结构和wx:for可做递归处理。例如,对于如下wx:if结构:

相当于将以下节点放入{parName}节点下(z[{id1}]应替换为对应的z数组中的值):

具体实现中可以将递归时创建好多个block,调用子函数时指明将放入{name}下(_({name},{son}))识别为放入对应{block}下。wx:for也可类似处理,例如:

对应(z[{id1}]应替换为对应的z数组中的值):

调用子函数时指明将放入{fakeRoot}下(_({fakeRoot},{son}))识别为放入{name}下。

除此之外,有时我们还要将一组代码标记为一个指令,例如下面:

对应于{parName}下添加如下节点:

还有importinclude的代码比较分散,但其实只要抓住重点的一句话就可以了,例如:

对应与(其中的x是直接定义在 page-frame.html 中的字符串数组):

include类似:

对应与:

可以看到我们可以在处理时忽略前后两句话,把中间的_ic_ai处理好就行了。

通过解析 js 把 wxml 大概结构还原后,可能相比编译前的 wxml 显得臃肿,可以考虑自动简化,例如:

可简化为:

这样,我们完成了几乎所有 wxapkg包 内容的还原。

wcc-v0.5vv_20180626_syb_zp后通过只加载z数组中需要的部分来提高小程序运行速度,这也会导致仅考虑到上述内容的解包程序解包失败,这一更新的主要内容如下:

对于上述变更,将获取z数组处修改并添加对_rz _2z _mz _1z _oz的支持即可。

需要注意的是开发版的z数组转为如下结构:

探测到为开发版后应将获取到的z数组仅保留数组中的第二项。

以及含分包的子包采用 gz$gwx{$subPackageId}_{$id} 命名,其中{$subPackageId}是一个数字。

对于上述内容的转换,我写了一个可以直接使用的"反编译"工具(https://github.com/qwerty472123/wxappUnpacker),可以直接自动处理 wxapkg 包。

 
 
 
 

[注意]APP应用上架合规检测服务,协助应用顺利上架!

最后于 2018-9-22 22:55 被qwertyaa编辑 ,原因: fix a bug
收藏
免费 4
支持
分享
打赏 + 82.00雪花
打赏次数 5 雪花 + 82.00
 
赞赏  匪兵乙   +20.00 2018/08/11
赞赏  一位没有留下痕迹的看雪读者   +10.00 2018/08/08
赞赏  匪兵乙   +50.00 2018/08/05
赞赏  匪兵乙   +1.00 2018/08/05
赞赏  junkboy   +1.00 2018/08/02
最新回复 (36)
雪    币: 6573
活跃值: (3958)
能力值: (RANK:200 )
在线值:
发帖
回帖
粉丝
2
详细清晰,可读性和操作性都很强,作者很用心,望多多努力,对其他的程序研究起到抛砖引玉的作用。
2018-3-19 23:19
0
雪    币: 861
活跃值: (683)
能力值: ( LV6,RANK:80 )
在线值:
发帖
回帖
粉丝
3
2018-3-20 09:27
0
雪    币: 302
活跃值: (3388)
能力值: ( LV3,RANK:30 )
在线值:
发帖
回帖
粉丝
4
2018-3-20 10:07
0
雪    币: 201
活跃值: (16)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
5
谢谢分享  支持
2018-3-20 16:08
0
雪    币: 206
活跃值: (108)
能力值: ( LV6,RANK:90 )
在线值:
发帖
回帖
粉丝
6
厉害
2018-3-20 22:15
0
雪    币: 6818
活跃值: (153)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
7
2018-3-20 23:39
0
雪    币: 242
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
8
谢谢分享
2018-3-21 09:03
0
雪    币: 1535
活跃值: (695)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
9
老铁,666啊
2018-3-21 13:27
0
雪    币: 1
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
10
赞赞
2018-3-21 15:58
0
雪    币: 7957
活跃值: (2382)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
11
2018-3-21 18:36
0
雪    币: 210
活跃值: (746)
能力值: ( LV2,RANK:15 )
在线值:
发帖
回帖
粉丝
12
真的好详细,作者思路很清晰,赞赞
2018-3-22 12:56
0
雪    币: 189
能力值: (RANK:10 )
在线值:
发帖
回帖
粉丝
13
作者能不能留个联系方式
2018-5-15 01:37
0
雪    币: 144
活跃值: (178)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
14
作者最近有没有更新这个工具哦
2018-6-18 21:58
0
雪    币: 3238
活跃值: (1063)
能力值: ( LV13,RANK:928 )
在线值:
发帖
回帖
粉丝
15
川美 作者最近有没有更新这个工具哦
我计划7月份放假时进行更新
2018-6-18 23:15
0
雪    币: 144
活跃值: (178)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
16
qwertyaa 我计划7月份放假时进行更新
期待作者更新自动化,嘿嘿
2018-7-11 21:04
0
雪    币: 144
活跃值: (178)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
17
作者没时间更新?
2018-8-2 20:18
0
雪    币: 207
活跃值: (17)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
18
目前.wxml已经失效,7月底改变了算法,似乎z被独立出来了。
2018-8-3 10:48
0
雪    币: 199
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
19
期待楼主再次更新,7月底的算法改变,目前解包.WXML已失效。。
2018-8-5 11:58
0
雪    币: 3238
活跃值: (1063)
能力值: ( LV13,RANK:928 )
在线值:
发帖
回帖
粉丝
20
匪兵乙 期待楼主再次更新,7月底的算法改变,目前解包.WXML已失效。。
首先非常感谢你们的肯定与赞赏。同时也非常抱歉本来说的7月份的更新被各种事情推迟。
另外本来的计划里没有兼容新算法(因为本人水平有限,不能保证能还原出来;另外发布出来的东西(除了以前网上疯传的解包部分)也只能是通过合理的黑盒猜测而不是逆向分析得到的(至少以我的原则是这样)),我尽可能在这个月有空的时间研究一下吧。
2018-8-6 02:13
0
雪    币: 199
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
21
,万分感谢,辛苦你。我们就是站在巨人的肩膀上捞果子吃的。
2018-8-6 10:00
0
雪    币: 1
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
22
分包都不重要,主要是wxml解不出来咯
2018-8-7 12:34
0
雪    币: 1
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
23
非常感谢作者的无私奉献,我们集体坐等佳音!
2018-8-7 20:37
0
雪    币: 201
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
24
感谢楼主的辛苦,7月更新后,暂时还没找到解决方法,希望楼主更新
2018-8-8 13:30
0
雪    币: 199
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
25
更新了,感恩!
2018-8-11 13:16
0
游客
登录 | 注册 方可回帖
返回
// // 统计代码