
要約
細粒度画像認識は、判別的特徴が単一の画像あるいは複数の画像において通常断片化されているため、困難を伴う。既存の多数の手法は、顕著な改善をもたらしているものの、依然として単一画像からの最も判別力の高い領域に焦点を当てており、他の領域に含まれる有益な情報に無関心であり、関連する他の画像からの手がかりを十分に考慮していない。本論文では、細粒度画像認識の課題を新たな視点から分析し、ピーク抑制モジュールと知識ガイドモジュールを備えたトランスフォーマー構造を提案する。この構造は、単一画像内の判別的特徴の多様性を尊重するとともに、複数画像間での判別的手がかりの統合を実現する。具体的には、ピーク抑制モジュールはまず、線形投影を用いて入力画像を順序付きトークンに変換し、トランスフォーマーエンコーダが生成するアテンション応答に基づいてトークンをブロッキングする。このモジュールは、特徴学習プロセスにおいて最も判別力の高い領域へのアテンションを抑制することで、無視されがちな領域の情報活用を促進する。一方、知識ガイドモジュールは、ピーク抑制モジュールから得られる画像ベースの表現と、学習可能な知識埋め込み集合を比較し、知識応答係数を算出する。その後、これらの応答係数を分類スコアとして用いて、知識学習を分類問題として定式化する。トレーニング過程において、知識埋め込みと画像ベースの表現が同時に更新されることで、各画像に対する判別的特徴を含む知識埋め込みが獲得される。最後に、得られた知識埋め込みを画像ベースの表現に統合することで、包括的な表現を構築し、顕著な性能向上を達成する。本手法は、6つの代表的なデータセットにおける広範な評価を通じて、優れた有効性を実証している。