[翻译]AI与机器学习安全性问题研究-外文翻译-看雪-安全社区|安全招聘|kanxue.com

[翻译]AI与机器学习安全性问题研究

发表于: 2019-8-18 08:38 9218

[翻译]AI与机器学习安全性问题研究

lumou

2019-8-18 08:38

9218

人工智能（AI）越来越频繁地成为头条新闻。很多新产品都用到了AI，包括网络安全领域。在网络安全中，AI给攻防两方提供了不少助力。此前，我有写过一些关于在网络安全解决方案中使用机器学习以及使用机器学习提高黑客攻击的文章。AI对攻防双方来说都有效，所以很难说AI是好是坏。今天，我想要给诸位泼一些冷水。

实际上，任何我们借助于AI得到的结论都不容小觑，我们应该明确这一观点。我的观点是，广义上来说，AI是使事物变得聪明的科学。换句话说，AI是人类的智力借助于机器实现。

图片描述 图 1. AI应用实例

什么是智能？考虑那些人类很容易拥有的而机器很难拥有的能力。包括知觉（听觉，触觉，视觉，嗅觉），NLP（理解，生成，翻译），常识和推理。这就是我所说的AI（或者，至少是现在正在扩展的AI）。过去五年，人工智能领域得到了飞速发展。在下一个五年，关于它的诸多设想都很有可能变成现实。很多AI的完成，尤其是知觉方面，大都使用深度学习（Deep Learning，DL）方法，并且在图像识别和语音识别方法表现出了超乎人类的能力。

数百年来，机器在体力任务上超出了人类，但在其他领域却远不如人类。现在，我们即将踏入机器时代，这不仅意味着机器能完成知觉，NLP，和推理任务，也意味着这世界将迎来更快速的发展。

能力越大，责任越大，而AI，和其他技术一样，难免会受到攻击。这一事实让人失望，但同时也激起了网络安全解决方案的发展，从长远来看，这是值得的。在用户异常检测中引入机器学习，我的目标就不只是一个检测系统，而是希望它也能抵御网络攻击。基于此，我决定探索AI安全性以及机器学习算法（AI的重要领域之一）的漏洞。

第一个例子是愚弄机器学习算法，实现了绕过垃圾邮件过滤器。虽然已经有了很多关于机器学习算法安全性的论文，大多数在2012年后发表的。2012年是深度学习飞速发展的一年，当时基于神经网络的的图像识别，如AlexNet，在图像识别领域表现了超出人类的能力。这一现象让人如此兴奋，以至于没有人去思考安全问题，他们急急忙忙地改进模型想要获得更好的性能。不幸的是，攻击模型的可能性是深度学习算法的关键架构弱点，而且已经于2013年被Ian Goodfellow的研究人员在他们的文章 “Intriguing properties of neural networks”中提及。这些AI应用很容易受到对抗样例的攻击——有目的的构造输入，使其成为其中一个类别，骗过AI，最后让它错误分类图片。实际上，对于复杂目标，你无法简单的找到一个公式来区分它们，因为总会有一个对抗样例将正例误分为反例。为什么要学习神经网络的漏洞，和如何在现实生活中使用它？让我们试着来解决这个问题。

人工智能的出现是科学技术发展的一个里程碑。AI不断涌入我们的世界，渗透到隐藏的行业和最意想不到的行业。自从越来越多的业务流程实现了自动化，现在越来越多的决策是由机器做出的。

而且在网络安全领域用到智能算法的地方也持续上升。早期的黑客只可以从你的电脑上窃取你的数据或盗用你的银行卡账号，现在，他们可以渗透到你的方方面面。这是很容易实现的，因为当今世界是一个互联的世界，人们离不开笔记本电脑，移动电话，智能手表或自动化设备。运输和通信行业的完全自动化即将到来。饮食和医疗也即将被AI算法所操控。不幸的是，和其他算法一样，AI算法无法抵御网络攻击。

你可能会问，为什么AI网络安全如此重要。实际上，网络攻击者已经攻击了那些易受攻击的系统并造成不少混乱。如果行为和操作的逻辑暴露，人工智能和人类一样也会被骗。来看看可能被攻击的场景和为什么会有人想要攻击一个基于机器学习算法的系统。下面是一些例子：

欺骗自动驾驶汽车识别错误停车标志或限速标志。已有一个研究项目和实验结果证明这是可以实现的。自动驾驶汽车的重要任务之一就是图像分类，也就是识别交通信号。显然，搞清楚如何扰乱交通信号识别系统会造成可怕的事故。2019年伊始，就有超过100篇关于如何攻击图像识别系统的论文发表。如果需要，大部分论文成果是可以成为现实的。考虑到所有障碍物，可以在路标上贴一个小贴纸，这样就能轻松欺骗系统将路标识别错误。

绕过垃圾邮件过滤器。 垃圾邮件过滤是机器学习算法在网络安全领域应用得比较早的一个方面之一。实际上，垃圾邮件过滤不仅为邮件设计，因为现有的信息中还包含了图片，语音和视频，这种情况下，我们可以将其称为AI，因为它有了更多的感知能力。它们很快会派上用场，因为在未来过滤无数虚假的图片，语音和视频流会成为大多数人的需要。关于绕过垃圾邮件过滤器的研究已达到数十篇，而且其数量还在持续增长。

绕过基于AI的恶意软件检测工具。 越来越多的恶意软件检测系统使用机器学习算法检测恶意软件。这些算法有其自身的缺点，因此黑客可以修改现有恶意软件让系统将其误认为是安全的软件。研究人员近期发布的文章描述了在现实中如何绕过多种恶意软件检测系统，包括PDF中的文件和Android应用程序（apk），pdf和apk是使用较为广泛的文件类型。

绕过人脸识别。 事实上，人脸识别有可能变成新的控制访问解决方案的核心。在智能设备时代，例如 iPhone X，确保系统受到绝对保护是非常重要的，这样才能不被黑客入侵。很多办公楼都安装了人脸认证系统，而且，还有些ATM采用人脸识别作为额外的安全措施。人脸识别系统的攻击方式和图像分类系统的攻击方式类似，但人脸识别系统也有其特殊之处。迄今为止，有超过10篇不同的研究文章论述了如何绕过人脸识别系统，比如，使用某种特殊的眼镜。

伪造语音指令。 如果你家的Amazon Echo将一些杂音误认为是一个指令会发生什么呢？有可能这些杂音是一个人耳几乎听不见的频率。这并非我个人臆想。很多研究表明，在某人的语音中加入一些轻微的，听不见的噪音可以让语音识别系统将其识别为一段特定的指令。因此，语音助手可以执行任意指令，也可能会被黑。

欺骗影评，酒店评论等的情感分析。 学者已经给出一个使系统错误分类的方法，该系统自动给一些评论评级。它证明了是有可能让系统将负面评论标记为正面的评论的。实践研究并不像其他类型的攻击那样普遍存在。然而，有好些例子也表明，在一句话中简单的修改某个单词就能让系统分析错误该条评论。

伪造异常和欺诈检测引擎。 正如在恶意软件攻击中提到的那样，越来越多的网络安全解决方案，例如欺诈检测系统，威胁检测系统和用户行为方案中都使用了机器学习算法以便更好地检测网络攻击。不幸的是，根据近期的研究论文显示，黑客也使用这些系统。

但这还不是一个完整的清单。对上述系统的完整攻击近在眼前。如果这看起来与你关联不大，我可以断言，人们不会因为这些系统不够普及而看不见真正的攻击浪潮。但是，当这一时刻来临，恶意分子也会利用已有漏洞进行攻击。

恶意分子具体能对基于AI的系统做些什么呢？这些攻击大致可以分为三类，机密性，可用性和完整性。

此类活动的目标是收集有关系统的相关信息，并利用收集到的信息为己谋利或者策划更高级的攻击。

换言之，恶意分子研究一个机器学习系统，比如说图像识别系统，有可能是为了深入了解并获取类似于数据库的信息。比如说，黑客可以根据投放两个特定的广告并看用户选择哪个而猜测该用户的性取向。之前Netflix公布它们的数据库的时候就发生过隐私泄露事件。即使数据已经被匿名处理了，黑客依然能够确定某一特定影评的作者。

为了提供更好的服务，个人助理收集了大量个人信息。这对黑客来说用处很大。如果能模仿一条语音，语音识别系统就会让你的个人助理将你的秘密都吐出来。在系统和专有算法的世界中，其中一个目标是利用系统的算法，系统的相关结构，神经网络，神经网络的类型，以及神经网络的层数等信息。这些信息可用于进一步攻击。如果我们知道了神经网络的类型和其他细节，那么我们就可以重建该网络，并且找出其他的攻击方式。

目标——使AI系统瘫痪。

有几种破坏的方式：

在AI中欺骗就是误分类任务。最简单的例子就是让AI（例如自动驾驶汽车）觉得路中间的是一只猫，其实是一辆车。攻击者有两种方式可以达到这个目的——干涉系统的学习或结果产生过程。前一种方法称为投毒，也就是攻击者在训练集中放入一些干扰数据。后一种称为逃避，攻击者利用算法漏洞让AI系统操作失误。

了解人工智能解决方案的威胁，并从技术角度进一步探讨这个问题。

如前所述，人工智能表示涵盖了一两种感知的智能事物（作为一种简单的概念），然而技术解决方案在感知方面仍处于劣势。于是，就出现了机器学习。

通常意义上来说，AI表示让事物变得智能起来，而ML表示变得“智能”的某一个具体的方法。举个例子，就基于AI的图像识别系统来说，仔细观察系统的算法你会发现至少有两个机器学习任务。一个是目标检测（或者图像分割），其目的是在一张图片中检测某一张脸，并选中那张脸所在的区域。另一个任务是图片分类，其目的是发现谁在图片中。这就是一个具体的AI解决方案中有两个不同的ML任务的例子，还有其他的，例如自然语言处理，情感分析，文本推荐等等。这些应用案例持续上升。从技术上来说，它们很相似，例如图像识别和情感分析——都是分类任务——所以会存在同样的漏洞。有些可能完全不同，如游戏中的图像分类和最佳路径计算。下面做进一步描述。

存在多种机器学习任务（分类，聚类，回归等）和机器学习方法（监督学习，无监督学习，强化学习）。每一种任务都有不同的安全问题，可能会导致受到攻击。

机器学习最普遍的任务就是分类。因其普遍程度，分类算法有更多针对攻击者的漏洞示例。但是，其他任务和方法（例如聚类和强化学习）也存在漏洞。下图是ML任务和方法示意图。

图片描述

图 2 经典机器学习地图

分类是安全研究的第一个也是最受欢迎的一个机器学习任务。

分类是一项简单的任务。假设你手里有两堆不同类型的图片（比如说，猫和狗），然后你希望有个系统能够自动将其分类好。

监督学习是分类最常用的方法，通常分类样本所属的类型是已知的。所有的类型一开始都确定好。所有的机器模型所用的算法（从SVM到随机森林和神经网络）都对不同的对抗性输入存在不同的漏洞。第一个攻击案例是2004年发表的一篇论文——“对抗分类”。目前，已有超过100篇论文介绍了分类算法的攻防方式。

图片描述
图 3. 基于机器学习算法的垃圾邮件过滤器

回归（或预测）很简单，是根据已有数据中隐藏的信息预测新的数据，比如股票预测。从技术角度来看回归，可分为两类：机器学习和深度学习。令人意外的是，针对回归的研究攻击并不像分类的那么多，从2004年到2018年已有200多篇文章研究攻击分类。“Adversarial Regression with Multiple Learners 2018”是一篇针对回归的攻击。

图片描述
图 4. 回归学习攻击样例。红线显示了蓝点的变化趋势

生成模型的任务不同于上述两种。监督学习任务——分类和回归——利用的是已有的信息和相关决策，而生成模型旨在根据先前的决策模拟实际数据（而不是决策）。像GAN（Generative Adversarial Network，生成对抗网络）和自编码器（auto-encoders ）这样的生成模型也很容易受到攻击。 “Adversarial examples for generative models”这篇文章就就介绍了相关攻击。

图片描述
图 5 生成对抗网络方案

在图5中，G是生成器，从潜在空间中提取样例并添加一些噪声，D是鉴别器，可以判断生成的假图像是否像真实样例。

最常见的无监督学习任务就是聚类。聚类和分类大体上相似，唯一的不同是，在聚类的时候数据所属的类别是不知道的，也不知道这些数据能否聚成若干类。

聚类是比较少见的任务，所以相比于分类，针对聚类的攻击研究比较少。聚类可用于恶意软件检测，通常其训练数据来自野外，所以攻击者可以操纵该恶意软件分类器的训练集及其聚类模型。聚类最常用的算法之一是knn（k-nearest neighbors，k近邻）。而“On the Robustness of Deep K-Nearest Neighbors” 这篇文章介绍针对knn的攻击。
图片描述
图 6 几种聚类模型

当你要处理无标签数据，并且它有很多特征的时候，你就需要降维或者归一化。你在这里应用不了聚类，因为经典算法对特征的数量是有限制，或者数量太大它们运行不起来。降维就可以解决这个问题，它能去掉不必要的特征。和聚类一样，降维是在复杂模型中最常见的任务之一。

虽然降维不像其他的机器学习用法那么常见，但是也有研究学者发表了一篇攻击基于PCA分类器的网络流量异常检测系统的文章。文章表示，PCA对异常值的敏感性可以通过污染训练数据加以利用，从而使对手能够沿特定目标流显著减低DOS攻击的检测率。

降维过程如图7所示，从左到右表示从三维降到二维的过程。

图片描述
图 7 降维实例

强化学习是一种环境驱动的方法。就好像一个懵懂无知的孩童通过不断试错从环境中学习的过程，它进行一些操作然后观察其反应。相比于监督学习或无监督学习，强化学习模型在启用前是没有训练数据的。通常来说，强化学习应用于环境不断改变的场景，而且，强化学习是自动驾驶汽车和图片识别、语音识别中最常用的模型之一。

最后，强化学习算法也易受到攻击，过去一年关于这部分的研究已有几篇论文，包括最新的“Vulnerability of Deep Reinforcement Learning to Policy Induction Attack” 。这篇论文表明，在游戏的每一帧中加入对抗性扰动，会导致强化学习策略的任意误导。

如君所见，攻击机器学习任务是有可能完成的。我没有提到具体的攻击类型及对ML模型的利用，因为本文意图在于概述机器学习任务类别及其对攻击的敏感性。

图片描述
图 8. 图中是一个特工（恐龙），其报酬取决于它在迷宫中的行动