
要約
細分類画像認識は、意味的なグローバル特徴と判別力のあるローカル特徴の両方を捉えることの困難さから、非常に挑戦的である。一方で、これらの二つの特徴は容易に統合されず、同時に使用される場合、むしろ互いに矛盾する傾向がある。本論文では、検索に基づく粗いから細かい(coarse-to-fine)フレームワークを提案する。このフレームワークでは、正解カテゴリが通常TopNの結果に含まれることを観察した上で、局所領域を強化した埋め込み特徴(embedding features)を用いてTopNの分類結果を再順序付けし、Top1精度の向上を図っている。細分類画像を区別するための判別力のある領域を取得するため、画像レベルのラベルのみを用いてボックス生成ブランチを弱教師あり学習で訓練する手法を導入している。さらに、より効果的な意味的グローバル特徴を学習するため、自動的に構築された階層的カテゴリ構造に基づくマルチレベル損失関数を設計した。実験結果から、本手法はCUB-200-2011、Stanford Cars、FGVC Aircraftの3つのベンチマークにおいて、最先端の性能を達成していることが示された。また、視覚的可視化と分析も提供し、提案手法の理解を深めるための支援を行っている。