[原创]基于深度学习的恶意软件分类器（一）

发表于: 2022-2-19 18:37 27752

[原创]基于深度学习的恶意软件分类器（一）

1900

2022-2-19 18:37

27752

一.前言

1.实验内容

通过将程序的16进制序列按照一定的规则转换为灰度图作为输入数据，随后使用VGG16深度卷积神经网络作为模型，利用深度卷积神经网络在图像识别上的准确性来来构建恶意程序分类器。该实验将会在两个公开数据集上进行测试，两个公开数据集的数据分别属于不同的恶意程序家族。因此，构建的分类器要解决的问题将是一个多分类问题。

2.实验环境

Python版本：3.6.13
Pytorch版本：1.8.1
CUDA版本：11.4

二.灰度图的生成

最初提出将程序的16进制序列转换为灰度图作为输入数据的是由2011年发表的一篇论文中阐述的，该论文的链接是：Malware Images: Visualization and Automatic Classification，感兴趣的，可以将论文下载下来，下面讲一下转换思路。

当程序被编译器编译完成以后，将会以二进制的形式保存在磁盘中。但是程序解析的时候，都是按照一个字节（8比特）来解析，所以解析器一般是按照16进制形式展现一个程序的二进制文件，如下图所示：

而每个字节的大小在0-255的范围内，这个范围和像素点的范围是一样的。因此，可以考虑将程序的每个字节当成一个像素点，转换成一个二维的数组，然后生成相应的灰度图，过程如下图所示：

这里就有一个问题，每个程序的字节数是不同的。因此，需要按照一定的规则来指定生成的图像的宽和高，作者在论文中给出的参考如下：

根据文件大小的不同来固定生成的图像的宽度，剩余的字节就填充到高度去，以此，来生成相应的灰度图来表征程序。此外，作者认为，生成灰度图的时候，应当把程序的PE头部分删除，只留下节区，因为节区中的内容才保存了程序要执行的指令，使用到的数据等到。如下图所示，可以看到不同节区生成的灰度图的纹理存在着明显的不同：

最终生成的灰度图如下图所示，其中上面三张图是其中一个类别的恶意程序生成的灰度图，而下面的三张图则是另一类别恶意程序生成的灰度图。从中可以看到，不同家族的恶意程序所生成的灰度图的纹理存在非常明显的差异，这就给模型的训练带来的便利。

三.公开数据集

1.Maling数据集

上述论文作者按照其思路，将如下所示的25个家族的恶意程序转换成数据集供给大家实验。其中，最后一列代表的是该家族恶意程序的数量，可以看出，数据集存在明显的类别不均衡的问题，事实上，这也是该领域的一大问题。

该数据集一共有九千多条数据，其中的百分之90（8000多条）用来作为训练数据，百分之10（900多条）用来作为测试数据。训练数据和测试数据的形式如下图所示：

每种家族的恶意程序都被保存到了一个文件夹中，文件夹的名称就是程序所属的家族，文件夹中则保存了每个家族的恶意软件生成的灰度图，如下图所示：

该数据集提供了测试集的标签，因此使用准确率来判断模型性能，如下是该数据集的数据类代码：

from torch.utils.data import Dataset
import os
import cv2
from torchvision import transforms
import pandas as pd
import glob
import torch
 
 
# 定义数据类来读取文件
class MalwareDataset(Dataset):
    def __init__(self, file_path):
        self.root_path = file_path
        self.file_path = []
        self.y_data = []
        self.len = 0
 
        category = 0    # 每种样本的类别(0-24)
        for dir_name in os.listdir(self.root_path):
            for file_name in os.listdir(os.path.join(self.root_path, dir_name)):
                self.file_path.append(os.path.join(self.root_path, dir_name, file_name))    # 存储文件路径
                self.y_data.append(category)    # 存储类别
                self.len = self.len + 1
            category += 1
        self.transforms_data = transforms.Compose(
            # [transforms.RandomRotation(-45, 45)],
            [transforms.ToTensor()]
        )
 
    def __getitem__(self, index):
        data_path = self.file_path[index]
        image = cv2.imread(data_path)
        image = cv2.resize(image, (224, 224))
        image = self.transforms_data(image)
 
        return image, self.y_data[index]
 
    def __len__(self):
        return self.len

2.微软公开数据集

该数据集是微软2015年在kaggle举行的恶意软件分类比赛上提供的数据集，该比赛的网址是：Microsoft Malware Classification Challenge。该数据集的训练集样本的测试集样本数量差不多，都是1W出头的数量。trainLabels.csv文件保存了训练集中的恶意程序类别，其中ID是软件的名称，Class是所属的类别，如下图所示：

对于每个恶意软件，数据集都给出了其16进制序列和汇编指令，分别保存在.bytes和.asm文件中。

登录后可查看完整内容

[招生]科锐逆向工程师培训(2025年3月11日实地，远程教学同时开班, 第52期)！

最后于 2022-4-12 16:56 被1900编辑，原因：

#病毒木马

收藏・21

免费・12

支持

赞赏记录

参与人

雪币

留言

时间

guotouck

这个讨论对我很有帮助，谢谢！

2025-1-14 14:21

sky东

为你点赞~

2024-3-13 09:41

shishichen

为你点赞~

2023-12-8 21:04

兔先生

为你点赞~

2023-7-8 09:33

伟叔叔

为你点赞~

2023-3-18 03:59

Ally Switch

为你点赞~

2022-10-20 21:14

miaostart

为你点赞~

2022-10-19 17:04

PLEBFE

为你点赞~

2022-7-27 00:54

心游尘世外

为你点赞~

2022-7-26 22:40

飘零丶

为你点赞~

2022-7-17 02:28

R0g

为你点赞~

2022-2-22 19:12

mb_egsgqdnl

为你点赞~

2022-2-21 15:48

最新回复 (15)
十年后雪币： 8774 活跃值： (4701) 能力值： ( LV2，RANK：10 ) 在线值：发帖 24 回帖 175 粉丝 0 关注私信	十年后 2 楼分析的很到位,谢谢分享 2022-2-20 08:25 0
kofcoco 雪币： 24 活跃值： (479) 能力值： ( LV2，RANK：10 ) 在线值：发帖 0 回帖 19 粉丝 0 关注私信	kofcoco 3 楼很强大，学习了 2022-2-21 14:55 0
淡然他徒弟雪币： 6304 活跃值： (5192) 能力值： ( LV10，RANK：160 ) 在线值：发帖 23 回帖 225 粉丝 110 关注私信	淡然他徒弟 1 4 楼 mark了 2022-2-21 22:13 0
wx_咿呀咿呀雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	wx_咿呀咿呀 5 楼哇 2022-3-23 17:04 0
saloyun 雪币： 733 活跃值： (3123) 能力值： ( LV2，RANK：10 ) 在线值：发帖 7 回帖 253 粉丝 2 关注私信	saloyun 6 楼 2022-3-24 17:27 0
mb_kbkqyusp 雪币： 606 活跃值： (1147) 能力值： ( LV3，RANK：20 ) 在线值：发帖 3 回帖 29 粉丝 11 关注私信	mb_kbkqyusp 7 楼 wa 2022-3-24 18:52 0
mb_pyuhxzzy 雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	mb_pyuhxzzy 8 楼请问maling数据集的下载地址是什么 2022-5-24 19:23 0
1900 雪币： 22413 活跃值： (25400) 能力值： ( LV15，RANK：910 ) 在线值：发帖 95 回帖 162 粉丝 565 关注私信	1900 6 9 楼 mb_pyuhxzzy 请问maling数据集的下载地址是什么论文里面有，不过之前有人分享了kaggle的，所以也可以去这里下载：https://www.kaggle.com/datasets/keerthicheepurupalli/malimg-dataset9010 最后于 2022-5-24 19:30 被1900编辑，原因： 2022-5-24 19:27 0
mb_bzepgvmk 雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	mb_bzepgvmk 10 楼可以发下完整代码吗？ 2022-7-12 15:05 0
1900 雪币： 22413 活跃值： (25400) 能力值： ( LV15，RANK：910 ) 在线值：发帖 95 回帖 162 粉丝 565 关注私信	1900 6 11 楼 mb_bzepgvmk 可以发下完整代码吗？所有代码不是都发出来了嘛 2022-7-12 17:20 0
miaostart 雪币： 5023 活跃值： (2709) 能力值： ( LV2，RANK：10 ) 在线值：发帖 1 回帖 41 粉丝 1 关注私信	miaostart 12 楼非常感谢分享！ 2022-10-19 17:04 0
mb_aaxzszrk 雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	mb_aaxzszrk 13 楼请问这个错误您遇到过吗？ size mismatch for classifier.6.weight: copying a param with shape torch.Size([1000, 4096]) from checkpoint, the shape in current model is torch.Size([25, 4096]). size mismatch for classifier.6.bias: copying a param with shape torch.Size([1000]) from checkpoint, the shape in current model is torch.Size([25]). 2023-2-24 16:34 0
mb_twuecnyv 雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	mb_twuecnyv 14 楼 mb_aaxzszrk 请问这个错误您遇到过吗？ size mismatch for classifier.6.weight: copying a param with shape torch.Size([1000, 40 ... 将预训练参数的最后一层删掉就可以了，我是这么解决的 2023-5-4 19:33 0
PGANan 雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	PGANan 15 楼你好，老师，请问有malimg灰度图数据集的原始恶意软件样本数据集吗？ 2023-12-8 17:53 0
wx_波吉王子雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	wx_波吉王子 16 楼 mb_twuecnyv 将预训练参数的最后一层删掉就可以了，我是这么解决的请问,可以说一下改哪里的代码吗 2024-3-12 20:35 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复

1900

发帖

162

回帖

910

RANK

关注

私信

一.前言
1. 1.实验内容
2. 2.实验环境
二.灰度图的生成
三.公开数据集
1. 1.Maling数据集
2. 2.微软公开数据集

他的文章

关于我们

联系我们

企业服务

看雪公众号

最新回复 (15)
十年后雪币： 8774 活跃值： (4701) 能力值： ( LV2，RANK：10 ) 在线值：发帖 24 回帖 175 粉丝 0 关注私信	十年后 2 楼分析的很到位,谢谢分享 2022-2-20 08:25 0
kofcoco 雪币： 24 活跃值： (479) 能力值： ( LV2，RANK：10 ) 在线值：发帖 0 回帖 19 粉丝 0 关注私信	kofcoco 3 楼很强大，学习了 2022-2-21 14:55 0
淡然他徒弟雪币： 6304 活跃值： (5192) 能力值： ( LV10，RANK：160 ) 在线值：发帖 23 回帖 225 粉丝 110 关注私信	淡然他徒弟 1 4 楼 mark了 2022-2-21 22:13 0
wx_咿呀咿呀雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	wx_咿呀咿呀 5 楼哇 2022-3-23 17:04 0
saloyun 雪币： 733 活跃值： (3123) 能力值： ( LV2，RANK：10 ) 在线值：发帖 7 回帖 253 粉丝 2 关注私信	saloyun 6 楼 2022-3-24 17:27 0
mb_kbkqyusp 雪币： 606 活跃值： (1147) 能力值： ( LV3，RANK：20 ) 在线值：发帖 3 回帖 29 粉丝 11 关注私信	mb_kbkqyusp 7 楼 wa 2022-3-24 18:52 0
mb_pyuhxzzy 雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	mb_pyuhxzzy 8 楼请问maling数据集的下载地址是什么 2022-5-24 19:23 0
1900 雪币： 22413 活跃值： (25400) 能力值： ( LV15，RANK：910 ) 在线值：发帖 95 回帖 162 粉丝 565 关注私信	1900 6 9 楼 mb_pyuhxzzy 请问maling数据集的下载地址是什么论文里面有，不过之前有人分享了kaggle的，所以也可以去这里下载：https://www.kaggle.com/datasets/keerthicheepurupalli/malimg-dataset9010 最后于 2022-5-24 19:30 被1900编辑，原因： 2022-5-24 19:27 0
mb_bzepgvmk 雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	mb_bzepgvmk 10 楼可以发下完整代码吗？ 2022-7-12 15:05 0
1900 雪币： 22413 活跃值： (25400) 能力值： ( LV15，RANK：910 ) 在线值：发帖 95 回帖 162 粉丝 565 关注私信	1900 6 11 楼 mb_bzepgvmk 可以发下完整代码吗？所有代码不是都发出来了嘛 2022-7-12 17:20 0
miaostart 雪币： 5023 活跃值： (2709) 能力值： ( LV2，RANK：10 ) 在线值：发帖 1 回帖 41 粉丝 1 关注私信	miaostart 12 楼非常感谢分享！ 2022-10-19 17:04 0
mb_aaxzszrk 雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	mb_aaxzszrk 13 楼请问这个错误您遇到过吗？ size mismatch for classifier.6.weight: copying a param with shape torch.Size([1000, 4096]) from checkpoint, the shape in current model is torch.Size([25, 4096]). size mismatch for classifier.6.bias: copying a param with shape torch.Size([1000]) from checkpoint, the shape in current model is torch.Size([25]). 2023-2-24 16:34 0
mb_twuecnyv 雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	mb_twuecnyv 14 楼 mb_aaxzszrk 请问这个错误您遇到过吗？ size mismatch for classifier.6.weight: copying a param with shape torch.Size([1000, 40 ... 将预训练参数的最后一层删掉就可以了，我是这么解决的 2023-5-4 19:33 0
PGANan 雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	PGANan 15 楼你好，老师，请问有malimg灰度图数据集的原始恶意软件样本数据集吗？ 2023-12-8 17:53 0
wx_波吉王子雪币：能力值： ( LV1，RANK：0 ) 在线值：发帖 0 回帖 1 粉丝 0 关注私信	wx_波吉王子 16 楼 mb_twuecnyv 将预训练参数的最后一层删掉就可以了，我是这么解决的请问,可以说一下改哪里的代码吗 2024-3-12 20:35 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复

[原创]基于深度学习的恶意软件分类器（一）

一.前言

1.实验内容

2.实验环境

二.灰度图的生成

三.公开数据集

1.Maling数据集

2.微软公开数据集

账号登录 验证码登录

账号登录

验证码登录