要約
細粒度視覚分類(Fine-grained Visual Classification: FGVC)は、価値ある一方で極めて挑戦的な課題である。FGVCの困難さの本質は、クラス間の類似性が高く、クラス内での変動も大きいことに加え、利用可能な訓練データが限られている点にあり、また深層畳み込みニューラルネットワーク(CNN)の普及に伴い、研究者たちは主に深層の抽象的で意味的な情報に注目してFGVCを推進してきたが、浅層の詳細な情報は軽視されてきた。本研究では、上記の課題を解決するため、階層間相互注意学習ネットワーク(Cross-layer Mutual Attention Learning Network: CMAL-Net)を提案する。具体的には、CNNの浅層から深層にかけての各層を、異なる視点に関する専門知識を持つ「エキスパート」として捉える。各エキスパートは分類予測と、検出された手がかりを示す注目領域(attention region)を出力する。これらの注目領域はエキスパート間の情報伝達手段として機能し、以下の3つの利点をもたらす:(ⅰ)モデルが判別力のある領域に注目できるようにする;(ⅱ)より多くの訓練データを提供する;(ⅲ)エキスパート同士が相互に学習することで、全体の性能向上を実現する。CMAL-Netは、FGVC-Aircraft、Stanford Cars、Food-11の3つの代表的なデータセットにおいて、最先端の性能を達成した。