对深度学习的逃逸攻击 — 探究人工智能系统中的安全盲区-Pikachu Hacker

对深度学习的逃逸攻击 — 探究人工智能系统中的安全盲区
—ISC 2017中国互联网安全大会举办了人工智能安全论坛。

我们把论坛总结成为一系列文章，本文为系列中的第二篇。

作者：肖奇学¹, 许伟林², 李康¹ (1. 来自 360 Team Seri0us 团队, 2. 美国弗吉尼亚大学)

“逃逸攻击就是要把百分之零点零零一的误判率变成百分之百的攻击成功率”。

虽然深度学习系统经过训练可以对正常输入达到很低的误判率，但是当攻击者用系统化的方法能够生成误判样本的时候，攻击的效率就可以接近100%，从而实现稳定的逃逸攻击。

1、逃逸攻击简介

逃逸是指攻击者在不改变目标机器学习系统的情况下，通过构造特定输入样本以完成欺骗目标系统的攻击。例如，攻击者可以修改一个恶意软件样本的非关键特征，使得它被一个反病毒系统判定为良性样本，从而绕过检测。攻击者为实施逃逸攻击而特意构造的样本通常被称为“对抗样本”。只要一个机器学习模型没有完美地学到判别规则，攻击者就有可能构造对抗样本用以欺骗机器学习系统。例如，研究者一直试图在计算机上模仿人类视觉功能，但由于人类视觉机理过于复杂，两个系统在判别物体时依赖的规则存在一定差异。对抗图片恰好利用这些差异使得机器学习模型得出和人类视觉截然不同的结果，如图1所示^[1]。

3.1 对Gmail PDF过滤的逃逸攻击 

本文作者许伟林一年前在NDSS大会上发表了名为Automatically Evading Classifiers的论文^[5]。研究工作采用遗传编程（Genetic Programming）随机修改恶意软件的方法，成功攻击了两个号称准确率极高的恶意PDF文件分类器：PDFrate 和Hidost 。这些逃逸检测的恶意文件都是算法自动修改出来的，并不需要PDF安全专家介入。图3显示了对抗样本生成的基本流程。

图4：针对手写数字图像识别的对抗样本生成

我们主要是利用灰盒fuzzing测试的方法来实现，首先给定数字“1”的图片作为种子，然后通过对种子图片进行变异，如果机器学习系统将变异后的图片识别为“2”，那么我们认为这样一个图片就是对抗样本。

利用Fuzzing测试的对抗样本生成是基于AFL来实现的，主要做了以下几方面的改进：

1. 是漏洞注入，我们在机器学习系统中添加一个判断，当图片被识别为2时，则人为产生一个crash；

2. 是在数据变异的过程中，我们考虑文件格式的内容，优先对一些图像内容相关的数据进行变异；

3. 是在AFL已有的路径导向的基础上，增加一些关键数据的导向。

下图5是我们生成的一些对抗样本的例子。

1. 基于数据流篡改可以利用任意写内存漏洞，直接将AI系统中的一些关键数据进行修改(如标签、索引等)，使得AI系统输出错误的结果。

2. 另一种则是通过常规的控制流劫持(如堆溢出、栈溢出等漏洞)来完成对抗攻击，由于控制流劫持漏洞可以通过漏洞实现任意代码的执行，因此必然可以控制AI系统输出攻击者预期的结果。

关于软件漏洞造成的问题我们在本系列第一篇文章里已有详细介绍。这里只做了一个简单介绍, 更多细节请参考ISC 2017大会人工智能与安全论坛所发布的内容。

5、小结

本文的目的是继续介绍被大众所忽视的人工智能安全问题。虽然深度学习在处理自然生成的语音图像等以达到相当高的准确率，但是对恶意构造的输入仍然有巨大的提升空间。虽然深度学习系统经过训练可以对正常输入达到很低的误判率，但是当攻击者用系统化的方法能够生成误判样本的时候，攻击的效率就可以接近100%，从而实现稳定的逃逸攻击。随着人工智能应用的普及，相信对逃逸攻击的研究也会越来越深入。这些研究包括对抗样本生成以及增强深度学习对抗能力，我们未来会在后续文章里对这方面的工作进行更新。

6、参考文献

[1] http://www.freebuf.com/articles/neopoints/124614.html

[2] Ian Goodfellow and Jonathon Shlens and Christian Szegedy, Explaining and Harnessing Adversarial Examples. International Conference on Learning Representations, 2015.

[3] guyen, A., J. Yosinski, and J. Clune, Deep neural networks are easily fooled: High confidence predictions for unrecognizable images. 2015: p. 427-436.

[4] Moosavi Dezfooli, Seyed Mohsen and Fawzi, Alhussein and Frossard, Pascal, DeepFool: a simple and accurate method to fool deep neural networks, Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

[5] Weilin Xu, Yanjun Qi, and David Evans, Automatically Evading Classifiers A Case Study on PDF Malware Classifiers, NDSS, 2016

本文作者：360核心安全

本文为安全脉搏专栏作者发布，转载请注明：https://www.secpulse.com/archives/62197.html

文章版权归作者所有，未经允许请勿转载。

THE END