1 个月前

随机特征防御在应对基于查询的对抗攻击时的鲁棒性研究

Quang H. Nguyen, Yingjie Lao, Tung Pham, Kok-Seng Wong, Khoa D. Doan
随机特征防御在应对基于查询的对抗攻击时的鲁棒性研究
摘要

近期研究已表明,深度神经网络容易受到对抗样本的攻击——这些样本在与原始图像极为接近的情况下,仍可导致模型产生误分类。即便攻击者仅能访问模型的输出(即黑盒场景),仍可实施黑盒攻击以生成此类对抗样本。在本工作中,我们提出一种简单且轻量级的防御方法:在推理阶段向模型中间层的隐藏特征中添加随机噪声,从而有效抵御黑盒攻击。我们的理论分析证实,该方法能显著提升模型对基于得分(score-based)和基于决策(decision-based)的黑盒攻击的鲁棒性。尤为重要的是,该防御机制无需进行对抗训练,且对模型原有准确率的影响极小,因此可广泛应用于任意预训练模型。此外,我们的分析揭示了根据对抗目标函数的梯度,有选择性地在模型不同部分添加噪声的重要性,这一策略可根据攻击过程动态调整。通过大量实验,我们在多种具有不同架构的模型上验证了该防御方法在面对多种黑盒攻击时的稳健性。

随机特征防御在应对基于查询的对抗攻击时的鲁棒性研究 | 论文 | HyperAI超神经