2ヶ月前

Sparse Spatial Transformers for Few-Shot Learning 稀疏空間変換器を用いた少ショット学習

Haoxing Chen; Huaxiong Li; Yaohui Li; Chunlin Chen
Sparse Spatial Transformers for Few-Shot Learning
稀疏空間変換器を用いた少ショット学習
要約

限られたデータから学習することは、データの不足が訓練されたモデルの汎化性能を低下させるため、挑戦的です。古典的な全体プーリング表現は有用な局所情報を失う可能性があります。最近、多くの一発学習(few-shot learning)手法が深層記述子とピクセルレベルの計量学習を使用してこの課題に取り組んでいますが、深層記述子を特徴表現として使用すると画像の文脈情報が失われる可能性があります。さらに、これらの手法の多くはサポートセット内の各クラスを独立して処理するため、判別情報やタスク固有の埋め込みを十分に活用できません。本論文では、タスクに関連する特徴を見つけ出し、タスクとは関係のない特徴を抑制する新しいトランスフォーマーベースのニューラルネットワークアーキテクチャであるスパース空間トランスフォーマー(Sparse Spatial Transformers: SSFormers)を提案します。特に、まず各入力画像を異なるサイズの複数の画像パッチに分割し、濃密な局所特徴を得ます。これらの特徴は文脈情報を保ちつつ局所情報を表現します。次に、スパース空間トランスフォーマー層を提案し、クエリ画像と完全なサポートセットとの間での空間対応を見つけて、タスクに関連する画像パッチを選択し、タスクとは関係のない画像パッチを抑制します。最後に、画像パッチマッチングモジュールを使用して濃密な局所表現間の距離を計算し、クエリ画像がサポートセット内のどのカテゴリに属するかを決定することを提案します。一般的な一発学習ベンチマークにおける広範な実験により、当社の手法が最先端手法に対して優れていることが示されています。ソースコードは \url{https://github.com/chenhaoxing/ssformers} で公開されています。