2ヶ月前
深層ニューラルネットワークの隠れ空間を制限した敵対防御
Aamir Mustafa; Salman Khan; Munawar Hayat; Roland Goecke; Jianbing Shen; Ling Shao

要約
深層ニューラルネットワークは敵対的攻撃に対して脆弱であり、入力画像に微小な摂動を加えることで誤導される可能性があります。既存の防御策の堅牢性は、敵対者がネットワークに関する完全な知識を持ち、強力な摂動を見つけるために複数回反復できる白箱攻撃設定下で大きく損なわれます。私たちは、このような摂動が存在する主な理由が、学習された特徴空間における異なるクラスサンプルの近接性であることを観察しました。これにより、入力に認識不能な摂動を加えるだけでモデルの決定が完全に変更される可能性があります。これを防ぐため、私たちは深層ネットワークの中間特徴表現をクラスごとに分離することを提案します。具体的には、各クラスの特徴を他のクラスの多面体から最大限に隔離された凸多面体(convex polytope)内に配置するように強制します。この方法により、ネットワークは各クラスに対して明確かつ遠隔した決定領域を学習することが強制されます。私たちは、この単純な特徴に対する制約が既知の最強白箱攻撃に対しても学習済みモデルの堅牢性を大幅に向上させることを観察しました。また、クリーン画像での分類性能を低下させることなくその効果が得られることも確認しています。私たちは黒箱および白箱攻撃シナリオにおいて広範な評価を行い、最先端の防御策と比較して有意な改善が見られることを示しています。