
要約
長尾データのモデリングに関する関心が高まっている。人工的に構築されたデータセットとは異なり、長尾データは現実世界に自然に存在するため、より現実的な状況を反映している。クラス不均衡問題に対処するため、本研究では長尾視覚認識向けに「拡張されたエピソード記憶(Inflated Episodic Memory: IEM)」を提案する。まず、IEMは畳み込みニューラルネットワークにカテゴリごとの代表的特徴を追加し、末尾クラス(tail classes)における高速学習を可能にする。従来の少サンプル学習では、カテゴリを表すために単一のプロトタイプが用いられるが、長尾データにはカテゴリ内での変動が大きいため、1つのプロトタイプでカテゴリを適切に表現するのは困難である。そこで、各カテゴリごとに最も判別性の高い特徴を個別に記憶するIEMを導入する。さらに、メモリバンクは独立して更新されるため、歪んだ分類器の学習をさらに抑制できる。第二に、マルチスケールの空間特徴マップの符号化に向け、新たな領域自己注意(region self-attention)機構を提案する。この機構により、より判別性の高い特徴を統合でき、末尾クラスに対する一般化性能の向上が期待される。本手法では、複数スケールでの局所特徴マップを符号化するとともに、空間的文脈情報を同時に集約する。IEMと領域自己注意機構を組み合わせることで、4つの標準的な長尾画像認識ベンチマークにおいて最先端の性能を達成した。さらに、YouTube-8Mという長尾動画認識ベンチマークにおいても、IEMの有効性を実証した。