
要約
細粒度カテゴリ(例えば鳥類の種類)の認識は、識別的な部位の局在化と部位ベースの細粒度特徴学習に大きく依存している。従来の手法は、これらの課題を独立して処理する傾向にあり、部位の局在化(例:鳥の頭部)と細粒度特徴学習(例:頭部の形状)の間には相関関係があるという事実を無視している。本論文では、マルチアテンション畳み込みニューラルネットワーク(MA-CNN)を用いた新たな部位学習アプローチを提案する。MA-CNNでは、部位の生成と特徴学習が互いに強化し合う仕組みを実現する。MA-CNNは、畳み込み層、チャネルグループ化、部位分類のサブネットワークから構成される。チャネルグループ化ネットワークは畳み込み層からの特徴チャネルを入力とし、空間的に相関するチャネルをクラスタリング、重み付け、プーリングすることで複数の部位を生成する。その後、部位分類ネットワークは各部位ごとに画像を分類することで、より識別性の高い細粒度特徴を学習する。チャネルグループ化と部位分類のマルチタスク学習を促進するため、2つの損失関数を提案する。これにより、MA-CNNは特徴チャネルからより識別性の高い部位を生成し、部位からより優れた細粒度特徴を学習するという相互強化のプロセスが可能になる。MA-CNNはバウンディングボックスや部位のアノテーションを必要とせず、エンド・ツー・エンドで学習が可能である。本手法で学習した部位をpart-CNNと組み合わせて認識に用いたところ、CUB-Birds、FGVC-Aircraft、Stanford-Carsの3つの難易度の高い公開細粒度データセットにおいて、最良の性能を達成した。