
要約
細粒度分類モデルは、データセットにおいてクラス内変動が大きく、クラス間変動が小さい場合に、高度に類似したクラスを区別するために必要な関連する詳細情報を明示的に注目することができる。これらのモデルの多くは、部分のアノテーション(バウンディングボックス、位置情報、テキスト属性など)を用いて分類性能を向上させている。また、他のモデルは自動的に注目マップ(attention map)を抽出する高度な技術を用いている。本研究では、部分ベースのアプローチとして自動クロッピング手法が、類似物体を区別する上で根本的な役割を果たす局所特徴の表現を欠落していると仮定する。細粒度分類はグラフの葉を認識することを目指す一方で、人間は物体を認識する際に意味的関連性(semantic association)を意識して認識する。本論文では、意味的関連性を階層構造(分類学的階層、taxonomy)として構造化し、これを教師信号として用い、エンドツーエンドの深層ニューラルネットワークモデルであるEnGraf-Netに組み込んだ。Cifar-100、CUB-200-2011、FGVC-Aircraftの3つの代表的なデータセットにおける広範な実験により、EnGraf-Netが多数の細粒度分類モデルを上回る性能を発揮することが実証された。さらに、クロッピング技術や手動アノテーションを一切使用せずに、最新の最先端モデルと同等の性能を達成している。