
要約
細粒度視覚分類(Fine-Grained Visual Classification; FGVC)とは、クラス間の差異が極めて小さく、分類モデルが微細な差異を捉えることで正確な予測を行う必要がある分類タスクを指す。最先端のアプローチでは、入力画像の関連部位を局所化することで分類ネットワークの性能を向上させるための局所化ステップを組み込むことが一般的である。しかし、このような手法は通常、分類ネットワークを複数回通過するか、あるいは複雑な学習スケジュールを必要とするため、計算コストが高くなる傾向にある。本研究では、分類ネットワークとエンドツーエンドで統合可能な効率的な局所化モジュールを提案する。このモジュールは、分類ネットワークから逆伝播する勾配によって学習される一方で、局所化精度を向上させるために2つの自己教師学習型損失関数を導入している。提案手法は、CUB200-2011、Stanford Cars、FGVC-Aircraftの3つのベンチマークデータセット上で評価され、競争力のある認識性能を達成した。