TransFG:細粒度認識のためのTransformerアーキテクチャ

細粒度視覚分類(Fine-grained Visual Classification, FGVC)は、クラス間の本質的に微細な差異に起因して、サブカテゴリレベルでのオブジェクト認識を実現する非常に困難なタスクである。既存の多くは、検出された判別性の高い領域の特徴を再利用するバックボーンネットワークを用いてこの課題に取り組んでいる。しかしながら、このアプローチはパイプラインを複雑化させるだけでなく、提案される領域がオブジェクトの大部分を含むように誘導され、実際に重要な部分を正確に特定できなくなるという課題を抱えている。近年、ビジョントランスフォーマー(Vision Transformer, ViT)は従来の分類タスクにおいて優れた性能を示している。トランスフォーマーの自己注意機構(self-attention)は、各パッチトークンを分類トークンと連結する。本研究では、まずViTフレームワークが細粒度認識設定において有効であるかを評価する。その後、注意機構のリンクがトークンの重要性を直感的に示す指標として機能しうることに着目し、多数のトランスフォーマー構造に適用可能な新しい「部位選択モジュール(Part Selection Module)」を提案する。このモジュールでは、トランスフォーマーのすべての原始的な注意重みを統合して注意マップを生成し、ネットワークが判別性の高い画像パッチを効果的かつ正確に選択し、それらの関係を計算するためのガイドラインとして活用する。さらに、誤解を招きやすいクラス間の特徴表現の距離を拡大するため、対照的損失(contrastive loss)を導入している。本モデルを拡張したトランスフォーマー基盤のモデルとして「TransFG」と命名し、5つの代表的な細粒度ベンチマーク上で実験を実施することで、最先端の性能を達成することを示した。また、モデルの理解を深めるために定性的な結果も提示している。