2 个月前

解释和利用对抗样本

Ian J. Goodfellow; Jonathon Shlens; Christian Szegedy
解释和利用对抗样本
摘要

包括神经网络在内的多种机器学习模型在面对对抗样本时经常出现误分类——这些输入是通过对数据集中的示例施加微小但故意设计的最坏情况扰动而形成的,使得扰动后的输入会导致模型以高置信度输出错误答案。早期尝试解释这一现象主要集中在非线性和过拟合上。然而,我们认为神经网络对对抗性扰动易感的主要原因是其线性特性。这一解释得到了新的定量结果的支持,并首次解释了关于它们的一个最令人困惑的事实:即它们在不同架构和训练集上的泛化能力。此外,这种观点提供了一种简单且快速生成对抗样本的方法。通过使用这种方法为对抗训练提供样本,我们在MNIST数据集上降低了最大池化网络的测试集误差。