-
-
[原创]多元异构网络攻击溯源方法
-
发表于: 2021-8-9 18:23 6465
-
概述
高级持续威胁(Advanced Persistent Threat,简称APT)攻击绝大多数具有国家背景的攻击组织发起(如海莲花、蔓灵花、APT32、APT37等),它们通过向目标计算机系统投放免杀木马,窃取国家机密信息、重要企业的商业信息、破坏基础设施等。
据不完全统计,2020年与2019年相比,国内外公布的APT攻击事件数量增超过5成(特别是利用新冠疫情进行的APT攻击,主要手段为通过邮件钓鱼),导致越来越多的经济损失或名誉损失。为了减少网络攻击带来的损失和阻止未来潜在的攻击行为,网络攻击溯源就成为必然,以追究攻击者、攻击组织的罪责或者进行提前预警及防范,以免造成更大的损失。
一般而言,网络攻击溯源无非包含如下几个层面:攻击主机溯源、控制主机溯源、攻击者溯源、攻击组织溯源四个级别,这四个级别中,对攻击组织的溯源应是最高目标。为了实现网络攻击溯源,采用的技术手段包括追踪回溯技术、蜜罐技术、数字取证技术、网络取证技术、恶意代码分析技术、基于情报的溯源技术等,其中在最为常用的手段为基于情报的溯源技术,因为使用此方法最为简单而且得到的结果也比较可信,但在一些复杂的场景下使用此方法就存在较大的局限性,因为其具有一定的滞后效应,故可能无法实时、快速地定位攻击组织。
基于图模型的攻击溯源
网络攻击溯源需要安全专家首先收集攻击活动中遗留的线索数据。这些线索数据包括各类网络数据包、主机日志、运行记录等等,重点挖掘其在渗透、投放、持久化、横向移动、盗取等各个阶段的表征,如IP关联地理位置、域名、执行命令、数据包负载特征以及对主机实施的各类其它操作。通过这些数据与已知攻击者、历史攻击事件和各种地缘政治等相关数据进行关联分析,挖掘多维数据间的关系从而判断可能的攻击者或攻击组织。而图数据结构特别适于描述这些多维数据间的关系,下图是一个示意:
图1 攻击溯源示意
根据上图可以看出其包含了三个部分:
1、在数据源获取阶段,主要完成网络安全威胁情报和网络攻击事件线索数据两类数据的获取。网络安全威胁情报数据主要指从facebook/Twitter等社交网站、OpenCTI/AlienVault/微步/VirusTotal等威胁情报源以及Mitre等(目前记录了190余个APT组织)采集攻击者相关威胁情报(如已知攻击者、攻击者动机、攻击工具、基础设施、攻击方法、攻击模式等)和历史网络攻击事件相关的威胁情报(如历史攻击事件涉及的攻击目标、攻击者、攻击目标与攻击者所属区域间的地缘政治关系、恶意IP地址、恶意域名、恶意邮件地址、攻击工具、攻击工具利用的脆弱性、攻击方法等);网络攻击事件线索数据主要指从网络攻击目标的流量数据、告警日志、主机日志/配置等数据源中利用恶意代码分析、数字取证和网络取证调查等手段分析提取的攻击者使用的攻击工具指纹、攻击 IP、攻击域名等线索数据;有可能也需采集主机的CPE数据用于扩展相关数据源;
2、在网络攻击事件溯源关系图生成阶段:
首先对网络威胁情报和网络攻击事件线索数据进行数据清洗和标准化处理;
利用基于词向量的映射方法和基于词典的映射方法相结合完成映射;
最后,利用字符串的编辑距离和字符串相似性对标准化后的数据进行实体对齐,实现多源异构数据融合,形成网络攻击事件溯源关系图;
3、在攻击者挖掘阶段,使用图嵌入算法,在网络攻击事件溯源关系图上随机游走,生成网络攻击事件溯源实体序列,基于该实体序列生成网络攻击事件的关联特征向量,利用历史网络攻击事件的特征向量训练分类器,并使用分类器实现对已知攻击者/组织的进行自动挖掘。
溯源模型
由于网络攻击事件溯源本体根据网络攻击事件的事前、事中、事后的关键关联因素进行构建,故其对网络 攻击事件事前的触发因素中暗含的攻击者与攻击目标间的地缘政治、事中攻击者使用的网络安全威胁情报、事后攻击目标发现的网络安全威胁情报等线索具有较好的融合力度。
以下是溯源模型的示意:
图2 溯源模型
为了达到通过相关数据对于攻击数据的自动分类的目的,可以抽取如下特征作为向量:攻击者区域特征、攻击工具特征、漏洞利用(零日或历史漏洞)特征、语言特征、钓鱼邮件特征、被攻击者区域特征、被攻击者系统或应用特征;提取相关特征后使用相关系数计算这些组织的攻击特征相关性,相关性计算可以采用余弦相似、皮尔逊相关、Jaccard相关等方法两两进行,得到它们之间的相似程度,通过基于图的随机游走算法获得整体的图划分结果,从而将这些数据与实际环境中获得的特征进行比对,最终对攻击组织进行溯源或定位。
下图给出了相关的溯源示例:
图3 一个攻击溯源示例
总结
本文的目的是针对当前网络攻击溯源工作过度依赖人工分析的局限性,描述了一种基于图模型的网络攻击溯源框架和方法:即建立网络攻击事件溯源模型,融合攻击事件线索数据与威胁情报,形成网络攻击事件溯源关系图;利用基于图嵌入算法,从溯源关系图中自动提取网络攻击事件的关联特征,形成网络攻击事件特征向量,并引入机器学习分类器,通过对网络攻击者的挖掘分析,判断攻击事件与攻击者之间的归属关系,从而实现网络攻击溯源。
不过从网络攻防的本质而言,各类APT组织的手中绝不会只有一、两种工具,掌握的零日漏洞也绝不可能仅有有限的几个,不变是相对的而变化才是绝对的,今天早上你能给出检测发现方法,可能晚上就会发生变化,如攻击武器的语言、编译工具等特征,包括二进制文件布局、API的布局特征等等,所以对抗是永恒的主题,自动化的攻击溯源方法也永远在路上。
[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课