
要約
機械学習と深層学習モデルの人気の高まりに伴い、これらのモデルが悪意のある入力に対して脆弱であるという問題に対する関心が増しています。これらの敵対的な例はネットワークの本来の目的から予測を逸らし、実際のセキュリティにおいてますます大きな懸念となっています。このような攻撃に対抗するために、ニューラルネットワークは伝統的な画像処理手法や最先端の防御モデルを活用してデータの変動を軽減することができます。ノイズ削減に全体的なアプローチを取る防御手法は敵対的攻撃に対して効果的ですが、そのロスのあるアプローチはしばしば画像内の重要なデータを歪めてしまいます。本研究では、視覚的注目度に基づくアプローチを提案し、敵対的攻撃によって影響を受けたデータをクリーニングします。当モデルは敵対的画像の注目領域を利用することで、クリーニングされた画像における損失を比較的に低減しながら標的型対策を提供します。当モデルの精度は、攻撃前の最先端の注目度手法の有効性、攻撃下での有効性、およびクリーニング手法適用後の有効性を評価することにより測定されます。我々は2つの注目度データセットを使用して、既存の防御手法と確立された敵対的攻撃方法との比較において、提案手法の有効性を示しました。我々の標的型アプローチは、伝統的な手法や最先端の手法と比較して、標準的な統計量や距離注目度指標において著しい改善を示しています。