
細粒度視覚分類は、カテゴリ間の類似性が高く、同一カテゴリ内でのデータ間の差異が顕著であるため、困難なタスクである。この課題に対処するため、従来のアプローチは、カテゴリ間の微細な差異を局所化し、その特徴量の識別力を強化することに注力してきた。しかし、背景情報も分類に重要な役割を果たすことがあり、モデルがどの特徴量が不要あるいは有害であるかを判断する手がかりを提供する。また、微細な特徴に過度に依存するモデルは、グローバルな特徴や文脈情報を無視する傾向がある。本論文では、これらの課題を克服するため、「High-temperature Refinement and Background Suppression(HERBS)」と呼ばれる新規なネットワークを提案する。HERBSは、識別的な特徴量の抽出と背景ノイズの抑制をそれぞれ担当する、高温度精緻化モジュールと背景抑制モジュールの2つのモジュールから構成される。高温度精緻化モジュールは、異なるスケールでの特徴マップを精緻化することで、モデルが適切な特徴スケールを学習できるようにする。これにより、多様な特徴の学習が促進される。一方、背景抑制モジュールは、分類の信頼度スコアを用いて特徴マップを前景と背景に分割し、信頼度が低い領域の特徴値を抑制しつつ、識別的な特徴量を強調する。実験結果から、提案手法HERBSは、異なるスケールの特徴を効果的に統合し、背景ノイズを抑制しながら、適切なスケールにおける識別的特徴を抽出できることを示した。CUB-200-2011およびNABirdsのベンチマークにおいて、両データセットで93%を超える精度を達成し、最先端の性能を示した。したがって、HERBSは細粒度視覚分類の性能向上に有望なソリューションである。コード: https://github.com/chou141253/FGVC-HERBS