
近年、コンピュータビジョン(CV)分野において最も権威ある学術コンペティションの一つとして知られるImageNet Large Scale Visual Recognition Challenge(ILSVRC)がある。しかし、ILSVRCの年次優勝モデルを細分化視覚分類(Fine-Grained Visual Categorization: FGVC)タスクに直接適用しても、良好な性能は得られない。FGVCタスクにおいては、クラス間の差異が小さく、クラス内での変動が大きいという特徴から、高い難易度が課題となっている。本研究では、アテンションオブジェクト位置推定モジュール(Attention Object Location Module: AOLM)を用いてオブジェクトの位置を予測し、アテンション部分提案モジュール(Attention Part Proposal Module: APPM)により、ボックス枠や部分ラベルの付与なしに情報量の多い部分領域を提案する。この手法により得られるオブジェクト画像は、オブジェクトのほぼ全体構造を含みつつ、より詳細な情報も保持しており、部分画像は多様なスケールとより細粒度な特徴を有している。一方、元の画像はオブジェクト全体を完全に含んでいる。これらの3種類の訓練画像は、本研究で提案するマルチブランチネットワークによりそれぞれ監視される。したがって、マルチブランチ・マルチスケール学習ネットワーク(MMAL-Net)は、異なるスケールの画像に対しても優れた分類能力と頑健性を発揮する。本手法はエンド・ツー・エンドで学習可能でありながら、推論時間も短い。包括的な実験により、本手法がCUB-200-2011、FGVC-Aircraft、Stanford Carsの各データセットにおいて、最先端の性能を達成することが実証された。本研究のコードは、https://github.com/ZF1044404254/MMAL-Net にて公開される予定である。