17日前

細粒度視覚分類のための新規プラグインモジュール

Po-Yung Chou, Cheng-Hung Lin, Wen-Chung Kao
細粒度視覚分類のための新規プラグインモジュール
要約

視覚分類は、粗粒度分類と細粒度分類に分けられる。粗粒度分類は、猫と犬のような類似度が低いカテゴリを対象とするのに対し、細粒度分類は、猫の品種や鳥の種類、車両のメーカーまたはモデルなど、類似度が高いカテゴリの分類を指す。粗粒度視覚分類とは異なり、細粒度視覚分類は専門的な知識を持つエキスパートによるデータラベル付けを必要とするため、データのコストが高くなる。この課題に対応するため、多くの手法が最も識別的な領域を自動的に検出し、局所的な特徴を用いてより精度の高い特徴を提供することを提案している。これらの手法は画像レベルのラベルのみを必要とするため、ラベリングコストを削減できる。しかし、これらの多くは二段階または多段階のアーキテクチャを必要とし、エンドツーエンドでの学習が困難である。そこで、CNNベースやTransformerベースの多くの一般的なバックボーンに統合可能な新規のプラグインモジュールを提案する。このプラグインモジュールは、ピクセルレベルの特徴マップを出力し、フィルタリングされた特徴を融合することで、細粒度視覚分類の性能を向上させる。実験結果によれば、提案するプラグインモジュールは最先端の手法を上回り、CUB200-2011およびNABirdsの各データセットにおいて、それぞれ92.77%および92.83%という顕著な精度を達成した。本研究のソースコードはGitHubにて公開しており、以下のURLからアクセス可能である:https://github.com/chou141253/FGVC-PIM.git。

細粒度視覚分類のための新規プラグインモジュール | 最新論文 | HyperAI超神経