[原创]python_mmdt:KNN机器学习分类结果测试分析(五)-编程技术-看雪-安全社区|安全招聘|kanxue.com

[原创]python_mmdt:KNN机器学习分类结果测试分析(五)

发表于: 2022-1-24 14:45 28048

[原创]python_mmdt:KNN机器学习分类结果测试分析(五)

大大薇薇

2022-1-24 14:45

28048

KNN模型家族Top10列表

测试集家族Top10列表

判定依据：

特别说明：

结论如下：

0.95错误样本抽样分析

0.90错误样本抽样分析

恶意家族标签	恶意样本数量	恶意样本占比
virlock	169631	26.83%
botnet	168238	26.61%
gandcrab	76101	12.04%
wabot	47340	7.49%
pluto	28554	4.52%
coinminer	19226	3.04%
autorun	17681	2.80%
virut	8012	1.27%
gandcrypt	7210	1.14%
upatre	6717	1.06%
总计	548710	86.79%

家族标签	样本数量	样本占比
clean	200	50.00%
gandcrypt	14	3.50%
upatre	13	3.25%
ipamor	11	2.75%
wabot	11	2.75%
pluto	9	2.25%
autoit	9	2.25%
virut	8	2.00%
allaple	8	2.00%
sytro	6	1.50%
总计	289	72.25%

# -*- coding: utf-8 -*-

import sys

import requests

from python_mmdt.mmdt.common import mmdt_load
 
# 相似度判定阈值，阈值取两个，0.95和0.90

dlt = 0.95
 
def mmdt_scan_online_check():

    file_name = sys.argv[1]

    # 加载测试数据

    features = mmdt_load(file_name)

    # 4个指标项

    TP = 0

    TN = 0

    FP = 0

    FN = 0

    count = 0

    print('检测结果,文件md5,真实标签,相似文件,预测标签,相似度')

    for feature in features:

        count += 1

        tmp = feature.strip().split(":")

        file_mmdt = ':'.join(tmp[:2])

        tag = tmp[2]

        file_sha1 = tmp[3]

        data = {

            "md5": file_sha1,

            "sha1": file_sha1,

            "file_name": file_sha1,

            "mmdt": file_mmdt,

            "data": {}

        }

        r = requests.post(url='http://146.56.242.184/mmdt/scan', json=data)

        r_data = r.json()

        if r_data.get('status', 0) == 20001:

            status = r_data.get('status', 0)

            message = r_data.get('message', '')

            print('文件md5: %s, 状态码: %d, 提交信息: %s' % (file_sha1, status, message))

        else:

            label = r_data.get('data', {}).get('label', 'unknown')

            sim_hash = r_data.get('data', {}).get('similars', [])[0].get('hash', 'None')

            sim = r_data.get('data', {}).get('similars', [])[0].get('sim', 0.0)

            check_result = ''

            # 统计隐藏条件，实际标签与预测标签一致，才可判定为TP，记为正确分类

            if tag == label and sim > dlt:

                TP += 1

                check_result = '正确'

            elif tag == 'clean' and sim > dlt:

                FP += 1

                check_result = '错误'

            elif tag == 'clean' and sim <= dlt:

                TN += 1

                check_result = '正确'

            else:

                FN += 1

                check_result = '错误'

            print('%s,%s,%s,%s,%s,%.5f' % (check_result, file_sha1, tag, sim_hash, label, sim))

        if count >= 500:

            break

    print('测试mmdthash总数：%d' % count)

    print('检测正确总数：%d' % (TP + TN))

    print('检测错误总数：%d' % (FP + FN))

    print('检测TP总数：%d' % TP)

    print('检测TN总数：%d' % TN)

    print('检测FP总数：%d' % FP)

    print('检测FN总数：%d' % FN)

    print('检测准确率ACC：%.3f' % ((TP + TN)/(TP + TN + FP + FN)))

    print('检测精确率PRE：%.3f' % (TP/(TP + FP)))

    print('检测召回率REC：%.3f' % (TP/(TP + FN)))
 
def main():

    mmdt_scan_online_check()
 
if __name__ == '__main__':

    main()

# -*- coding: utf-8 -*-

import sys

import requests

from python_mmdt.mmdt.common import mmdt_load

# 相似度判定阈值，阈值取两个，0.95和0.90

dlt = 0.95

def mmdt_scan_online_check():

file_name = sys.argv[1]

# 加载测试数据

features = mmdt_load(file_name)

# 4个指标项

TP = 0

TN = 0

FP = 0

FN = 0

count = 0

print('检测结果,文件md5,真实标签,相似文件,预测标签,相似度')

for feature in features:

count += 1

tmp = feature.strip().split(":")

file_mmdt = ':'.join(tmp[:2])

tag = tmp[2]

file_sha1 = tmp[3]

data = {

"md5": file_sha1,

"sha1": file_sha1,

"file_name": file_sha1,

"mmdt": file_mmdt,

"data": {}

}

r = requests.post(url='http://146.56.242.184/mmdt/scan', json=data)

r_data = r.json()

if r_data.get('status', 0) == 20001:

status = r_data.get('status', 0)

message = r_data.get('message', '')

print('文件md5: %s, 状态码: %d, 提交信息: %s' % (file_sha1, status, message))

else:

label = r_data.get('data', {}).get('label', 'unknown')

sim_hash = r_data.get('data', {}).get('similars', [])[0].get('hash', 'None')

sim = r_data.get('data', {}).get('similars', [])[0].get('sim', 0.0)

check_result = ''

# 统计隐藏条件，实际标签与预测标签一致，才可判定为TP，记为正确分类

if tag == label and sim > dlt:

TP += 1

check_result = '正确'

elif tag == 'clean' and sim > dlt:

FP += 1

check_result = '错误'

elif tag == 'clean' and sim <= dlt:

TN += 1

check_result = '正确'

else:

FN += 1

check_result = '错误'

print('%s,%s,%s,%s,%s,%.5f' % (check_result, file_sha1, tag, sim_hash, label, sim))

if count >= 500:

break

print('测试mmdthash总数：%d' % count)

print('检测正确总数：%d' % (TP + TN))

print('检测错误总数：%d' % (FP + FN))

print('检测TP总数：%d' % TP)

print('检测TN总数：%d' % TN)

print('检测FP总数：%d' % FP)

print('检测FN总数：%d' % FN)

print('检测准确率ACC：%.3f' % ((TP + TN)/(TP + TN + FP + FN)))

print('检测精确率PRE：%.3f' % (TP/(TP + FP)))

print('检测召回率REC：%.3f' % (TP/(TP + FN)))

登录后可查看完整内容

[培训]内核驱动高级班，冲击BAT一流互联网大厂工作，每周日13:00-18:00直播授课

最后于 2022-1-24 14:46 被大大薇薇编辑，原因：增加测试数据

#基础知识 #开源分享 #开发技巧 #工具脚本 #其他

上传的附件：

mmdt_feature_test_400.data （20.79kb，11次下载）

收藏・4

免费・2

支持

赞赏记录

参与人

雪币

留言

时间

伟叔叔

为你点赞~

2023-3-18 04:24

PLEBFE

为你点赞~

2022-7-27 23:50

最新回复 (6)
caolinkai 雪币： 3836 活跃值： (4142) 能力值： ( LV2，RANK：10 ) 在线值：发帖 7 回帖 812 粉丝 1 关注私信	caolinkai 2 楼支持下， 2022-1-24 15:41 0
大大薇薇雪币： 1887 活跃值： (2776) 能力值： ( LV7，RANK：100 ) 在线值：发帖 13 回帖 122 粉丝 18 关注私信	大大薇薇 1 3 楼 caolinkai 支持下，感谢感谢，动力+1 2022-1-25 09:54 0
洪七公. 雪币： 2119 活跃值： (1895) 能力值： ( LV5，RANK：70 ) 在线值：发帖 14 回帖 120 粉丝 2 关注私信	洪七公. 4 楼辛苦支持下 2022-1-27 13:53 1
gxkyrftx 雪币： 791 活跃值： (404) 能力值： ( LV4，RANK：51 ) 在线值：发帖 6 回帖 47 粉丝 2 关注私信	gxkyrftx 5 楼换个数据集效果咋样，或者改变一下白样本和黑样本的比例。我以前做dl应用的时候，感觉，哈哈哈哈，跟玄学一样，只在一个数据集上有效 2022-1-27 15:17 0
大大薇薇雪币： 1887 活跃值： (2776) 能力值： ( LV7，RANK：100 ) 在线值：发帖 13 回帖 122 粉丝 18 关注私信	大大薇薇 1 6 楼洪七公. 辛苦支持下 Thx，动力+1 2022-1-28 12:41 0
大大薇薇雪币： 1887 活跃值： (2776) 能力值： ( LV7，RANK：100 ) 在线值：发帖 13 回帖 122 粉丝 18 关注私信	大大薇薇 1 7 楼 gxkyrftx 换个数据集效果咋样，或者改变一下白样本和黑样本的比例。我以前做dl应用的时候，感觉，哈哈哈哈，跟玄学一样，只在一个数据集上有效嗯，准备先处理下数据集，再多测试几次试试。 2022-1-28 12:41 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复

大大薇薇

发帖

122

回帖

100

RANK

关注

私信

他的文章

关于我们

联系我们

企业服务

看雪公众号

最新回复 (6)
caolinkai 雪币： 3836 活跃值： (4142) 能力值： ( LV2，RANK：10 ) 在线值：发帖 7 回帖 812 粉丝 1 关注私信	caolinkai 2 楼支持下， 2022-1-24 15:41 0
大大薇薇雪币： 1887 活跃值： (2776) 能力值： ( LV7，RANK：100 ) 在线值：发帖 13 回帖 122 粉丝 18 关注私信	大大薇薇 1 3 楼 caolinkai 支持下，感谢感谢，动力+1 2022-1-25 09:54 0
洪七公. 雪币： 2119 活跃值： (1895) 能力值： ( LV5，RANK：70 ) 在线值：发帖 14 回帖 120 粉丝 2 关注私信	洪七公. 4 楼辛苦支持下 2022-1-27 13:53 1
gxkyrftx 雪币： 791 活跃值： (404) 能力值： ( LV4，RANK：51 ) 在线值：发帖 6 回帖 47 粉丝 2 关注私信	gxkyrftx 5 楼换个数据集效果咋样，或者改变一下白样本和黑样本的比例。我以前做dl应用的时候，感觉，哈哈哈哈，跟玄学一样，只在一个数据集上有效 2022-1-27 15:17 0
大大薇薇雪币： 1887 活跃值： (2776) 能力值： ( LV7，RANK：100 ) 在线值：发帖 13 回帖 122 粉丝 18 关注私信	大大薇薇 1 6 楼洪七公. 辛苦支持下 Thx，动力+1 2022-1-28 12:41 0
大大薇薇雪币： 1887 活跃值： (2776) 能力值： ( LV7，RANK：100 ) 在线值：发帖 13 回帖 122 粉丝 18 关注私信	大大薇薇 1 7 楼 gxkyrftx 换个数据集效果咋样，或者改变一下白样本和黑样本的比例。我以前做dl应用的时候，感觉，哈哈哈哈，跟玄学一样，只在一个数据集上有效嗯，准备先处理下数据集，再多测试几次试试。 2022-1-28 12:41 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复

[原创]python_mmdt:KNN机器学习分类结果测试分析(五)

账号登录 验证码登录

账号登录

验证码登录