
要約
生成モデルを用いた敵対的浄化手法は、強力な敵対的防御性能を示している。これらの手法は分類器や攻撃手法に依存しないため、汎用性が高く、しばしば計算コストが高くなるという特徴を持つ。最近の拡散モデルおよびスコアネットワークの進展により、画像生成の性能が向上し、その結果として敵対的浄化の性能も改善された。一方、敵対的訓練と呼ばれるもう一つの高効率な敵対的防御手法は、攻撃ベクトルに関する特定の知識を必要とし、敵対的サンプルを大量に用いて訓練しなければならないという制約がある。こうした課題を克服するため、本研究では、事前学習済みの拡散モデルとキャプション生成モデルを活用した新しいフレームワーク、すなわち「言語誘導型敵対的浄化(Language Guided Adversarial Purification: LGAP)」を提案する。入力画像に対して、本手法はまずその画像に対応するキャプションを生成し、そのキャプションを拡散ネットワークを介して敵対的浄化プロセスに導く。本手法は強力な敵対的攻撃に対して評価された結果、敵対的ロバスト性を著しく向上させることを実証した。実験結果から、LGAPは特別なネットワーク訓練を必要とせずに、既存の多くの敵対的防御手法を上回る性能を発揮することが明らかになった。これは、大規模データセットで学習されたモデルの汎用性の高さを示しており、今後の研究にとって有望な方向性を示唆している。