
摘要
深度神经网络在许多领域中被广泛应用并展现出卓越的性能。然而,它们容易受到对抗性攻击的影响,这些攻击通过在输入数据上施加精心设计的扰动来破坏网络在推理阶段的正常运行。尽管已经提出了一些针对特定攻击的防御方法,但其他攻击手段仍能绕过这些防御机制。因此,我们提出了净化变分自编码器(Purifying Variational Autoencoder, PuVAE),这是一种用于净化对抗样本的方法。所提出的方法通过将对抗样本投影到每个类别的流形上来消除对抗扰动,并确定最近的投影作为净化后的样本。我们在实验中展示了PuVAE对各种攻击方法的鲁棒性,而无需任何先验知识。实验结果表明,该方法的性能与最先进的防御方法相当,且推理时间比当前最先进的净化模型Defense-GAN快约130倍。