首页
社区
课程
招聘
[翻译]Powershell 代码反混淆技术研究
发表于: 2018-11-28 21:25 14295

[翻译]Powershell 代码反混淆技术研究

2018-11-28 21:25
14295

安全专业人员很早意识到一件令他们头疼的事情,那就是攻击者喜欢让他们的工作变得更加复杂。攻击者们有一系列技术来混淆自己的地理位置,网络流量,原始代码指令。这些行为使得防御者更难以发现并阻止他们,毕竟防御者很难找到攻击痕迹,即使找到了也难以理解那些混淆过后的数据。在编程领域,混淆就是使用语言的特性和技巧来创建一个易于机器读取,但人眼很难识别的命令。

混淆技术在不断发展,但幸运的是,防御者也逐渐意识到并发展了与之对应的反混淆技术。正如我今年上半年在BSides Charm上所介绍的,现在有一些令人兴奋的方法可以应用机器学习(ML)来对抗PowerShell的混淆技术。 但是在正式开始之前,让我们先了解一些常见的混淆技术,尤其关注攻击者对于PowerShell的混淆。

PowerShell功能十分强大。它旨在从命令行自动执行任务并解决配置管理的问题,由此创建了许多重要工具。PowerShell有很多优点:例如易于导入模块,能够访问核心API和远程命令,也正是由于这些优点使其成为攻击者执行无文件攻击的首选工具之一。使用本地或预先安装的工具来进行攻击已经越来越受欢迎,至少部分是由于基于文件的AV系统(例如ML引擎)的进步以检测从未见过的攻击。

对分析师和防御者来说,可以通过记录PowerShell命令并捕获脚本文件以进行分析。这使安全人员有机会在系统被入侵后取证,以了解攻击者的行为以及获取的成果(是否攻击成功。不过,攻击者可不喜欢这样做(this 代指上文取证工作,是说不会让安全人员轻易进行有效取证),所以他们经常会对命令进行模糊处理和编码,以阻止和减慢分析人员的速度。

每种语言都有自己的混淆方法,其中有许多都是通用的。对于PowerShell而言,以下是一些常见的方法:

还有更复杂的混淆方法,如变量创建和替换。混淆器将随机变量定义为字符串的全部或部分,并通过文件在该字符串的位置插入/替换它的地方。 有许多方法可以实现替换。以下是几个例子:

还有更多的例子我们没有详细列举,由于篇幅有限这里只能列举一部分,但是它们都是可以解决的。

使用Daniel Bohannon的Invoke-Obfuscation模块可以轻松使用以上列出的和更多没有列出的混淆方法。它是我们研究中所有混淆和编码工作的首选来源。

使用Invoke-Obfuscation,我们可以同时使用多个模糊处理方式,例如:
混淆之前:

图表1:原始Powershell脚本示例

混淆之后:

图表2:通过Invoke-Obfuscation进行模糊处理后的Powershell脚本示例

文本也可以转换为其他字符映射方案,进一步模糊。本文我们只关注两种方案:ascii转成hex以及ascii转成decimal。例如,'A'可以用十六进制表示为'41',用十进制表示为'65','['用十六进制表示为'5B',用十进制表示为'91'。

对PowerShell脚本进行完全编码需要一些额外的逻辑,解释器可以使用这些逻辑来解码文本。使用十进制编码的示例脚本如下所示:

图3:通过Invoke-Obfuscation进行编码后的Powershell脚本示例

您可能会注意到,在此示例中,甚至用于解码序列的逻辑也会被混淆。Invoke-Obfuscation真正做到了在脚本中执行数字。

为了解决这个问题,我们创建了一系列操作来解决出现的每个问题。

首先,我们收集数据并构建分类器以确定样本是否经过编码,模糊处理,或者未经混淆。样本可能同时经过了模糊处理和编码,因此我们需要重复使用此分类器以确保我们的最终结果是有效的。然后我们迭代地调用解码和反混淆逻辑,同时检查每个应用程序的输出以查看是否需要更多工作。最后,我们实现了一个清理神经网络,一种新的反混淆方法,以修复一些在混淆中出现的仅靠简单逻辑无法处理的比特位。
图4:反混淆逻辑流程
图4:反混淆逻辑流程

我们的第一个任务是创建一些可以确定样本是编码,混淆还是未经混淆的普通文本。为此,我们构建了一个机器学习分类器来自动识别。

用于构建和训练分类器的典型机器学习方法是:

1.使用标签收集大量标记好的样本(例如十六进制编码,混淆,纯文本)
2.采集样本的数字特征
3.使用选择好的算法进行训练

图5:分类器流程

通常,构建分类器最困难的部分是获取样本和标签。收集样本的方法可以从文件共享服务下载或从Github上去查找来解决。幸运的是,在我们拥有PowerShell脚本示例语料库之后,我们可以使用Invoke-Obfuscation按需生成模糊和编码的样本。

接下来是为我们的样品提取特征。对于分类器来说,文本可能有点棘手。 经典的机器学习方法(例如,训练逻辑回归模型)是手工定义和生成样本的摘要统计和其他相关特征,例如:

但是,这些特征往往不能很好地表达字符之间的关系。

于是,我们将使用一种称为LSTM的神经网络。

LSTM(长短期记忆)网络是专门的RNN(循环神经网络)。这些网络非常有用,因为它们保留了先前状态的存储器,并将其与当前输入结合使用以确定下一个状态。 这里有一个很好的解释性博客,介绍LSTM是什么以及它们是如何运作的,或者也可以看看我们之前关于构建LSTM以检测域生成算法的一些研究

图6:LSTM图

上来就接触神经网络似乎有点令人生畏,但是高级管理框架使初始应用程序非常容易,并不是那么困难。

可以看到,使用短短不到十行代码,我们就可以获取输入数据,创建一个简单的网络并进行训练。


图7 通过Invoke-Obfuscation进行编码后的Powershell脚本示例

如果你了解编码映射关系并知道何时应用逻辑,则解码可能是一个相对简单的过程。这正是PowerShell解释器所做的,重新实现是上面示例的有效方法。

但是,我作为一名数据科学家,在这里看到了一种特定格式。你知道用什么做格式匹配最好吗,肯定是正则表达式!

使用基于正则表达式的的解决方案,我们只需几行代码即可创建解码器。它在样本的开头和结尾处对编码器逻辑的混淆也很稳健,并且它可以PowerShell脚本之外运行,因此它是可推广的。

大部分的反混淆可以通过简单的逻辑来处理:连接字符串,删除`s,替换变量等。
其中一些转换很容易:

有些就会变得复杂一些。对于基于'-f'(格式运算符)的字符串乱序,我们如下操作:

1.通过char字符串处理来查找'-f'或'-F'
2.在'-f'之前找到所有{[0-9] +}类型的占位符
3.找到所有字符串和有效的非字符串值
4.用值替换占位符
5.迭代,因为你可以在同一行中多次这样做。

这有点单调乏味,并且有多种方法可以做到这种效果。但是总的技术是有限的,所以即使我们没有在我们的实现中枚举每个解决方案,它肯定是一个可解决的问题。

在集成了所有这些反混淆技术并按顺序应用它们之后,我们可以看到代码的执行情况。

反混淆之前:

图8:混淆的样本

反混淆之后:

图9:部分反混淆之后的样本

效果不算太差!但是仍然存在一些错误,并且大多数都很相似,看起来像:

这种随机化情形是一种与我们之前看到的不同类型的问题。它使代码更难阅读,但不能将PowerShell函数应用为混淆。 虽然我们讨论的所有先前技术都可以向后运行以获得原始输入,但随机方案却不能。 为此,我们需要一种不同的技术。

这是事情变得有趣的地方。为了更进一步,我们将使用神经网络来学习,有时记住变量应该是什么样子。
如果您看到了示例:

根据您的英语和编程知识,您可能会拼接出一个有具体含义的例子。也许是以下其中一个:

为了模仿这种认知,我们将训练一个Seq2Seq网络。Seq2Seq代表序列到序列。它是一种经常用于机器翻译的网络。

Seq2Seq使用LSTM(参见我们之前的文本分类器)来创建编码器网络以转换起始文本,并使用解码器网络来使用编码器输出和解码器存储器。结合这些,我们能够按字符输入输入字符并预测输出。 Keras有一个很好的博客,解释如何创建和训练其中一个网络。我们的代码通常都是参考他们的示例。

我们最初尝试使用此网络来翻译整行。由于Seq2Seq网络根据输入字符和最后预测的输出字符逐字符构建输出字符,因此我们可以看到测试如何与输入一起进行。它开始效果很好:
输入:

变成(看起来不错):

然后(开始出错):

最后(彻底跑偏):

一旦开始出错,它就会彻底失控。

为了解决错误的预测,我们对这个问题进行限制,并在每一行中选择“单词”作为最小单位。

1.在混淆和未混淆文件中找到相应的单词
2.获取可以被随机混淆的大多数变量和关键字
3.使用混淆的单词作为输入,使用未混淆的单词作为所需输出
4.使用先前的预测和新的输入数据预测下一个字符

重新训练的网络偶尔有一些有趣的问题:

但一般情况下表现得相当不错:

现在我们有了文件状态分类器,解码器,反混淆器和清理网络,我们已准备好将它们一起打包成一个功能并进行测试。

我们的总体流程如下:

图10:反混淆逻辑流程

让我们从一个非混淆的文件开始:

图表11:原始样本

我们使用一组随机技术对其进行混淆处理:

图表12:混淆后的样本

然后对其进行编码:

图表13:混淆和编码后的样本

现在我们可以通过我们的系统运行它。这将返回两个输出:

1)部分修复的版本,除了清理网络之外的所有内容;
2)包含清理网络的完全修订版本。

这是因为清理网络仍然非常具有实验性,可能会产生意外的输出。

部分修复:

图表14:部分反混淆的样本

完全修复:

图表15:完全反混淆的样本

结果还不错。我们能够对PowerShell脚本文件进行模糊处理,编码,然后修复。虽然这个最终输出还不是可执行的,但只要做一点工作我们就可以实现。反混淆是一项艰难但并非不可克服的挑战。遵循收集数据,智能清洗数据和适当应用ML技术的基本步骤,使我们可以可靠地解决繁重的任务,从而改善我们的工作流程。有了坚持不懈和强大的数学,我们可以将牙膏放回管中。

翻译:看雪翻译组-skeep
校对:看雪翻译组-wangrin
原文链接:https://www.endgame.com/blog/technical-blog/deobfuscating-powershell-putting-toothpaste-back-tube

 
 
 
 
 
 

[招生]科锐逆向工程师培训(2024年11月15日实地,远程教学同时开班, 第51期)

最后于 2018-11-28 23:02 被skeep编辑 ,原因: 校对完成
收藏
免费 7
支持
分享
打赏 + 3.00雪花
打赏次数 2 雪花 + 3.00
 
赞赏  orz1ruo   +2.00 2018/11/29
赞赏  junkboy   +1.00 2018/11/29
最新回复 (4)
雪    币: 11716
活跃值: (133)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
2
辛苦
2018-11-29 01:12
0
雪    币: 1535
活跃值: (695)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
3
 感谢分享!
2018-11-29 13:08
0
雪    币: 33
活跃值: (318)
能力值: ( LV4,RANK:40 )
在线值:
发帖
回帖
粉丝
4
感谢分享!
2020-4-26 15:37
0
雪    币: 2938
活跃值: (18)
能力值: (RANK:10 )
在线值:
发帖
回帖
粉丝
5
数据结构在手,根本没必要折腾别人的程序.
2020-4-26 22:27
0
游客
登录 | 注册 方可回帖
返回
//