
要約
従来の敵対的訓練では、自然データに対する精度が低下するという課題があった。本論文では、この自然データ精度の低下を軽減することを目的とする。我々は、あるクリーンモデル(自然データに訓練されたモデル)の出力ロジット(logits)を、別の敵対的耐性を持つモデルの学習を導くためのガイドとして利用する。これは、良好に訓練されたクリーンモデルのロジットが、自然データの最も識別的な特徴(例えば、一般化可能な分類境界)を内包しているという洞察に基づいている。本手法では、敵対的例を入力とするロバストモデルのロジットを、対応する自然データを入力とするクリーンモデルのロジットと類似させるように制約する。これにより、ロバストモデルはクリーンモデルの分類境界を継承できる。さらに、この境界ガイドの効果は、自然データ精度の維持だけでなく、モデルのロバスト性向上にも寄与することが観察された。これは敵対的学習分野における新たな知見を提供し、研究の進展を促進する。最後に、CIFAR-10、CIFAR-100、Tiny ImageNetにおける広範な実験により、本手法の有効性が検証された。特に、CIFAR-100において、追加の実データや合成データを用いずに、auto-attackベンチマーク(\footnote{\url{https://github.com/fra31/auto-attack}})において新たな最先端のロバスト性を達成した。本研究のコードは、\url{https://github.com/dvlab-research/LBGAT} にて公開されている。