7 个月前

摘要

针对图像分类系统的对抗性攻击给卷积网络带来了挑战，同时也为理解这些网络提供了机会。本研究指出，图像上的对抗性扰动会导致这些网络构建的特征出现噪声。基于这一观察结果，我们开发了新的网络架构，通过执行特征去噪来增强对抗性鲁棒性。具体而言，我们的网络包含使用非局部均值或其他滤波器进行特征去噪的模块；整个网络采用端到端的方式进行训练。当与对抗性训练结合时，我们的特征去噪网络在白盒和黑盒攻击场景下显著提升了现有技术的对抗性鲁棒性水平。在ImageNet数据集上，面对10次迭代的PGD（Projected Gradient Descent）白盒攻击，先前的方法准确率为27.9%，而我们的方法达到了55.7%；即使在极端的2000次迭代PGD白盒攻击下，我们的方法仍能保持42.6%的准确率。我们的方法在2018年对抗性攻击与防御竞赛（Competition on Adversarial Attacks and Defenses, CAAD）中排名第一——在面对48个未知攻击者的情况下，在一个秘密且类似于ImageNet的测试数据集上实现了50.6%的分类准确率，比第二名的方法高出约10%。代码已发布在https://github.com/facebookresearch/ImageNet-Adversarial-Training。

源 PDF