1ヶ月前

クエリベースの adversarial 攻撃に対するランダム化特徴防御のロバスト性の理解

Quang H. Nguyen, Yingjie Lao, Tung Pham, Kok-Seng Wong, Khoa D. Doan

要約

近年の研究では、深層ニューラルネットワークが、元の画像に非常に近いがモデルを誤分類させるような adversarial examples（敵対的サンプル）に対して脆弱であることが示されている。モデルの出力のみを入手可能な状況下でも、攻撃者はブラックボックス攻撃を用いてこうした敵対的サンプルを生成可能である。本研究では、推論時におけるモデルの中間層の隠れ特徴にランダムノイズを追加するという、シンプルかつ軽量なブラックボックス攻撃に対する防御手法を提案する。理論的分析により、この手法がスコアベースおよび意思決定ベースの両方のブラックボックス攻撃に対して、モデルの耐性を有効に向上させることを確認した。特に、本防御は敵対的訓練を必要とせず、精度への影響が極めて小さいため、あらゆる事前学習済みモデルに適用可能である。また、攻撃の過程で変化する敵対的目的関数の勾配に基づいて、モデルの異なる部分にノイズを選択的に加えることが重要であることも明らかになった。多様なアーキテクチャを持つ複数のモデルを用いた広範な実験を通じて、本防御が複数のブラックボックス攻撃に対して高いロバスト性を示すことを実証した。