単一のDiffusion Modelを用いたロバストな分類

拡散モデル(Diffusion models)は、敵対的ノイズの除去や敵対的学習に向けた現実的なデータの生成を通じて、画像分類器の敵対的堅牢性を向上させるために応用されてきた。しかし、拡散モデルを用いたノイズ除去手法は、より強力な適応型攻撃によって回避可能であり、敵対的学習は未知の脅威に対しては十分な性能を発揮しないという、いずれも根本的な限界を示している。本論文では、拡散モデルの表現力の活用をさらに高めるために、事前学習済みの拡散モデルから構築される敵対的堅牢性を有する生成型分類器「Robust Diffusion Classifier(RDC)」を提案する。RDCは、与えられた入力に対してデータ尤度を最大化した後、拡散モデルが推定する条件付き尤度をベイズの定理を用いて計算し、最適化された入力のクラス確率を予測する。さらに計算コストの低減を図るため、新しい拡散バックボーンである「マルチヘッド拡散(multi-head diffusion)」を提案し、効率的なサンプリング戦略も開発した。RDCは特定の敵対的攻撃に対する再学習を必要としないため、複数の未知の脅威に対してより汎化性が高い防御が可能であることを実証した。特に、CIFAR-10データセットにおいて、$\ell_\infty$ノルムによる適応型攻撃($\varepsilon_\infty = 8/255$)に対して75.67%の堅牢精度を達成し、従来の最先端の敵対的学習モデルを+4.77%上回った。これらの結果は、事前学習済みの拡散モデルを用いた生成型分類器が、広く研究されている判別型分類器と比較して、敵対的堅牢性の観点から大きな潜在能力を有していることを示している。コードは以下のURLで公開されている:\url{https://github.com/huanranchen/DiffusionClassifier}。