利用深度学习检测恶意PowerShell - FreeBuf网络安全行业门户

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序把安全装进口袋

网络安全

利用深度学习检测恶意PowerShell

2019-09-23 10:00:16

深度学习（deep learning）是机器学习大框架下的一类算法，在图像和文本分类等任务上，深度学习方法明显优于传统方法。随着发展，利用深度学习建立新的威胁检测方法具有很大的潜力。

机器学习算法使用数字模型，因此图像、文档或电子邮件等对象通过特征工程的步骤转换为数字形式，在传统的机器学习方法中，这需要大量的人力。通过深度学习，算法可以在相对原始的数据上进行操作，无需人工干预即可提取特征。

在本文中，我们提供了一个深度学习技术的示例，该技术最初是为自然语言处理（NLP）开发的，现在被采用并应用于检测恶意powershell脚本。

自然语言处理中的词嵌入模型

我们的目标是对powershell脚本进行分类，我们简要介绍在自然语言处理领域中如何处理文本分类。

一个重要的步骤是将单词转换成机器学习算法可以使用的向量（数字元组）。首先为词汇表中的每个单词指定一个唯一的整数，然后将每个单词表示为0的向量，其中1位于对应于该单词的整数索引处。尽管在许多情况下都很有用，但有明显的缺陷。所有的词之间都是等距的，词与词之间的语义关系并没有反映在对应向量之间的几何关系中。

上下文嵌入模型是一种较新的方法，它通过从数据中学习单词的上下文关系来克服这些限制。上下文嵌入模型是在像维基百科这样的大型文本数据集上训练的。word2vec算法是该技术的一个实现，它不仅能将词的语义相似度转化为向量的几何相似度，而且能保持词之间的极性关系。例如，在word2vec表示中：

嵌入powershell脚本

由于训练一个好的模型需要大量的数据，我们使用了一个由386k个不同的未标记powershell脚本组成的大型多样的语料库。word2vec算法通常与人类语言一起使用，当应用于powershell语言时，它提供了类似的结果。我们将powershell脚本拆分为令牌，然后使用word2vec算法为每个令牌分配一个矢量表示。

图1显示了5000个随机选择的令牌的矢量表示的二维可视化，其中一些重要令牌高亮显示。注意语义相似的标记是放置在彼此附近的。例如，表示-eq、-ne和-gt的向量（在powershell中分别是“equal”、“not equal”和“greater than”的别名）聚集在一起。类似地，表示allsigned、remotesigned、bypass和unrestricted令牌的向量（它们都是powershell中执行策略设置的有效值）被聚集在一起。

通过检查标记的向量，我们发现了一些其他关系。

令牌相似性：使用令牌的word2vec表示，我们可以识别powershell中具有别名的命令。在许多情况下，最接近给定命令的标记是其别名。例如，令牌调用表达式Invoke-Expression及其别名IEX的表示形式彼此最接近。这种现象的另外两个例子是invoke webrequest及其别名iwr，以及get childitem命令及其别名gci。

我们还测量了几组标记之间的距离。例如，考虑四个标记$i、$j、$k和$true（请参见图2的右侧）。前三个通常用于表示数值变量，最后一个表示布尔常量。正如预期的那样，$ true令牌与其他令牌不匹配，它是距离群组中心最远的（使用欧几里德距离）。

更具体地说，对于网络安全中powershell的语义，我们检查了令牌的表示：绕过、正常、最小化、最大化和隐藏（参见图2的左侧）。虽然第一个标记是powershell中executionpolicy标志的合法值，但其余是windowstyle标志的合法值。正如预期的那样，bypass矢量表示距离相比其他四个标记的矢量的距离更远。