
摘要
近年来,深度神经网络方法在机器学习任务中得到了广泛应用,包括分类任务。然而,研究表明这些方法容易受到对抗性扰动的影响:精心设计的小幅扰动可以导致合法图像的误分类。我们提出了一种新的框架——Defense-GAN,该框架利用生成模型的强大表达能力来防御深度神经网络免受此类攻击。Defense-GAN 被训练以建模未受扰动图像的分布。在推理阶段,它会找到一个与给定图像接近但不含对抗性变化的输出。然后将此输出送入分类器进行处理。我们所提出的方法可以与任何分类模型结合使用,并且不会修改分类器的结构或训练过程。此外,由于该方法不假设对抗样本生成的具体过程,因此可以作为防御任何攻击的有效手段。通过实验验证,我们发现 Defense-GAN 对不同的攻击方法具有持续有效的防护作用,并且优于现有的防御策略。我们的代码已公开发布在 https://github.com/kabkabm/defensegan 上。