
細粒度視覚分類(Fine-Grained Visual Classification, FGVC)とは、スーパークラスに属する複数の下位カテゴリのオブジェクトを識別するタスクである。近年の最先端手法は、このタスクに対処するために複雑な学習パイプラインを設計している。しかし、視覚情報のみでは、細粒度の視覚カテゴリ間を正確に区別することがしばしば困難である。現在では、画像とともに、空間時間的事前知識(spatio-temporal prior)、属性情報、テキスト記述といったメタ情報がしばしば提供されている。これにより、我々は次の問いを提起する:さまざまなメタ情報を統一的かつ簡潔なフレームワークによって活用し、細粒度識別を支援することは可能だろうか?この問いに答えるために、我々は細粒度視覚分類のための統一的かつ強力なメタフレームワーク(MetaFormer)を提案する。実際の運用において、MetaFormerは視覚情報と多様なメタ情報を統合的に学習する、簡潔かつ効果的なアプローチを提供する。さらに、装飾的な要素を一切用いない状態でも、MetaFormerはFGVCにおいて強力なベースラインを提供する。広範な実験により、MetaFormerが多様なメタ情報を有効に活用し、細粒度認識の性能を向上させることを示した。公平な比較において、MetaFormerはiNaturalist2017およびiNaturalist2018データセットにおいて、視覚情報のみを用いた現行の最先端手法を上回った。さらにメタ情報を加えることで、それぞれ5.9%および5.3%の性能向上を達成し、現行の最先端手法を上回った。また、CUB-200-2011およびNABirdsデータセットでは、それぞれ92.3%および92.7%の精度を達成し、現行の最先端手法を大きく上回った。ソースコードおよび事前学習済みモデルは、https://github.com/dqshuai/MetaFormer にて公開されている。