
要約
視覚分類モデルがしばしば画像の背景に依存し、前方物体(フォアグラウンド)を軽視する傾向があることが観察されており、これは分布の変化に対するモデルのロバスト性を損なう要因となっている。この課題を軽減するために、モデルの関連性信号(relevancy signal)を監視し、その信号を操作することでモデルの注目をフォアグラウンド物体に集中させる手法を提案する。このアプローチは微調整(fine-tuning)ステップとして実施され、画像とその対応するフォアグラウンドマスクのペアからなる比較的小規模なサンプル群を用いる。具体的には、モデルの関連性マップに対して以下の三点を促進する:(i)背景領域に対して低い関連性を割り当てる、(ii)フォアグラウンドから可能な限り多くの情報を抽出する、(iii)分類決定に対して高い信頼度をもたらす。この手法をビジョントランスフォーマー(Vision Transformer, ViT)モデルに適用したところ、ドメインシフトに対するロバスト性が顕著に向上することが確認された。さらに、フォアグラウンドマスクは、ViTモデル自身の自己教師付き変種(self-supervised variant)から自動的に取得可能であり、追加の教師信号は不要である。