2 个月前

面向对抗攻击的深度学习模型

Aleksander Madry; Aleksandar Makelov; Ludwig Schmidt; Dimitris Tsipras; Adrian Vladu

摘要

近期的研究表明，深度神经网络容易受到对抗样本的攻击——这些输入几乎无法与自然数据区分开来，但却被网络错误分类。实际上，最新的研究结果表明，对抗攻击的存在可能是深度学习模型固有的弱点。为了解决这一问题，我们通过鲁棒优化的视角研究了神经网络的对抗鲁棒性。这种方法为我们提供了一个广泛且统一的观点，涵盖了先前关于该主题的大量工作。其原则性还使我们能够识别出训练和攻击神经网络的方法，这些方法既可靠又在某种意义上具有普遍性。特别是，它们指定了一个具体的防御保障，可以抵御任何对手。这些方法使我们能够训练出对广泛范围内的对抗攻击具有显著增强抵抗力的网络。此外，它们还提出了针对一阶对手（first-order adversary）的安全保障作为自然且广泛的防御保障。我们认为，对这种明确定义的对手类别的鲁棒性是实现完全抗攻击的深度学习模型的重要一步。相关代码和预训练模型可在 https://github.com/MadryLab/mnist_challenge 和 https://github.com/MadryLab/cifar10_challenge 获取。