
要約
近年、深層ニューラルネットワークの手法が機械学習タスク、特に分類に広く採用されています。しかし、これらの手法は敵対的摂動に対して脆弱であることが示されています。つまり、巧妙に設計された微小な変更が正当な画像の誤分類を引き起こす可能性があります。本研究では、生成モデルの表現能力を活用して深層ニューラルネットワークに対するこのような攻撃を防御する新しい枠組みであるDefense-GAN(ディフェンス・GAN)を提案します。Defense-GANは、未改変画像の分布をモデル化するために訓練されます。推論時には、与えられた画像に近いが敵対的変更を含まない出力を探索します。この出力はその後、分類器に供給されます。我々が提案する方法は任意の分類モデルと組み合わせて使用でき、分類器の構造や学習手順を変更することはありません。また、敵対的サンプルの生成プロセスに関する知識を仮定しないため、任意の攻撃に対する防御としても利用可能です。実験結果から、Defense-GANは異なる攻撃手法に対して一貫して効果的であり、既存の防御戦略よりも優れていることが確認されました。当該コードは公開されており、以下のURLからアクセスできます:https://github.com/kabkabm/defensegan