
要約
判別的な局所領域から特徴表現を学習することは、微細粒度視覚分類において重要な役割を果たす。部位特徴の抽出に注目機構(attention mechanism)を活用するアプローチが近年のトレンドとなっている。しかし、これらの手法には二つの主要な限界がある。第一に、最も顕著な部位に注目しがちであり、目立たないが判別力のある他の部位を無視してしまう点である。第二に、異なる部位特徴を独立して扱い、それらの相互関係を考慮しない点である。これらの課題に対処するため、本研究では複数の異なる判別可能な部位を明示的に特定し、それらの関係性を探索する手法を提案する。この目的の下、既存の畳み込みニューラルネットワーク(CNN)に簡単に統合可能な2つの軽量モジュールを導入する。一方では、特徴マップの最も顕著な部位を強調する「特徴強化・抑制モジュール」を提案し、部位特有の表現を獲得するとともに、その部位を抑制することで、以降のネットワークが他の潜在的な部位を発掘するよう促す。他方で、「特徴多様化モジュール」を導入し、相関する部位特有の表現から意味的に補完的な情報を学習する。本手法はボックス枠(bounding box)や部位ラベルのアノテーションを必要とせず、エンド・トゥ・エンドで学習可能である。広範な実験結果から、本手法は複数の代表的な微細粒度データセットにおいて、最先端の性能を達成することが示された。ソースコードは以下のURLで公開されている:https://github.com/chaomaer/FBSD。