4ヶ月前

普遍的な敵対的摂動を生成モデルで学習する

Jamie Hayes; George Danezis
普遍的な敵対的摂動を生成モデルで学習する
要約

ニューラルネットワークは、敵対的サンプル(adversarial examples)に対して脆弱であることが知られています。敵対的サンプルとは、元の入力と視覚的に類似しているように意図的に変更された入力ですが、分類を誤らせます。最近の研究では、データセットと分類器が与えられた場合、任意の入力に適用されると分類を誤らせる所謂普遍的な敵対的摂動(universal adversarial perturbations)が存在することが示されました。本研究では、普遍的な敵対的ネットワーク(universal adversarial networks)を導入します。これは、生成された出力をデータセットからのクリーンなサンプルに加えることで、目標とする分類器を欺くことができる生成モデルです。我々はこの手法が既知の普遍的な敵対的攻撃よりも優れていることを示します。