
要約
細粒度視覚分類(Fine-Grained Visual Classification: FGVC)とは、異なる鳥類種や自動車モデルの区別など、クラス間の差が極めて小さい分類問題に取り組むタスクである。最先端のアプローチでは、標準的な畳み込みニューラルネットワーク(CNN)に複雑な注目メカニズムや(部分)局在化手法を統合することで、この課題に対処している。本研究でも、ResNetなどのバックボーンCNNの性能を向上させることが目的であり、FGVCに特化して設計された3つの効率的かつ軽量なモジュールを導入している。具体的には、グローバルk-maxプーリング、クラス平均を最適化することで学習される判別性の高い埋め込み層、および訓練時にクラスラベルのみを必要とする効率的なバウンディングボックス推定器を採用している。このアプローチにより、スタンフォード・カーおよびFGVC-Aircraftデータセットにおいて、新たな最良の最先端性能が達成された。