
摘要
随着机器学习和深度学习模型的日益流行,这些模型对恶意输入的脆弱性问题也受到了越来越多的关注。对抗样本会使模型预测偏离网络的原始意图,成为实际安全中的一大隐患。为了应对这些攻击,神经网络可以利用传统的图像处理方法或最先进的防御模型来减少数据中的扰动。采用全局噪声减少方法的防御措施在对抗攻击方面效果显著,但其有损的方法常常会扭曲图像中的重要数据。在这项工作中,我们提出了一种基于视觉显著性的方法来清理受到对抗攻击影响的数据。我们的模型利用对抗图像中的显著区域,以提供有针对性的对策,同时相对减少清理后的图像中的损失。我们通过评估最先进的显著性方法在攻击前、攻击中以及应用清理方法后的有效性来衡量我们模型的准确性。我们在两个显著性数据集上展示了所提出的防御方法相对于相关防御措施和已建立的对抗攻击方法的有效性。与传统和最先进的方法相比,我们的目标导向方法在一系列标准统计和距离显著性指标上表现出显著改进。