15 天前
基于单个扩散模型的鲁棒分类
Huanran Chen, Yinpeng Dong, Zhengyi Wang, Xiao Yang, Chengqi Duan, Hang Su, Jun Zhu

摘要
扩散模型已被应用于提升图像分类器的对抗鲁棒性,主要通过净化对抗噪声或生成真实数据以用于对抗训练。然而,基于扩散模型的净化方法容易被更强的自适应攻击所规避,而传统的对抗训练在面对未见威胁时性能表现不佳,暴露出这些方法固有的局限性。为更充分地发挥扩散模型的表达能力,本文提出一种新型生成式分类器——鲁棒扩散分类器(Robust Diffusion Classifier, RDC),该分类器基于预训练的扩散模型构建,具备对抗鲁棒性。RDC首先最大化给定输入的数据似然,随后利用扩散模型通过贝叶斯定理估计的条件似然,对优化后的输入进行类别概率预测。为进一步降低计算开销,本文提出一种新型扩散主干网络——多头扩散模型(multi-head diffusion),并设计了高效的采样策略。由于RDC无需针对特定对抗攻击进行训练,因此展现出更强的泛化能力,能够有效防御多种未见的对抗威胁。具体而言,在CIFAR-10数据集上,RDC在面对多种ℓ∞范数有界自适应攻击(ε∞ = 8/255)时,实现了75.67%的鲁棒准确率,较此前最先进的对抗训练模型提升了+4.77%。实验结果凸显了利用预训练扩散模型构建生成式分类器在对抗鲁棒性方面相较于传统判别式分类器的巨大潜力。代码已开源,地址为:\url{https://github.com/huanranchen/DiffusionClassifier}。