17日前

細粒度視覚カテゴリ化のためのアライメント強化ネットワーク

{Yutao Hu}
要約

細粒度視覚分類(Fine-grained Visual Categorization, FGVC)は、異なる下位カテゴリに属するオブジェクトを自動的に認識することを目的としている。学術界および産業界から広く注目を浴びているが、クラス間の視覚的差異が極めて微細であるため、依然として困難な課題である。近年、クロスレイヤー特徴の集約とクロス画像間のペアワイズ学習が、判別性の高いクラス固有特徴を抽出することでFGVCの性能向上に主流となりつつある。しかし、単純な集約戦略に依拠するため、クロスレイヤー情報の効率的活用は不十分であり、既存のペアワイズ学習手法も異なる画像間の長距離相互作用を十分に捉えていない。こうした課題を解決するため、本研究では二段階のアライメントを備えた新しいアーキテクチャであるアライメント強化ネットワーク(Alignment Enhancement Network, AENet)を提案する。本ネットワークは、クロスレイヤー・アライメント(Cross-layer Alignment, CLA)とクロス画像・アライメント(Cross-image Alignment, CIA)の二つのモジュールから構成される。CLAモジュールは、低レベルの空間情報と高レベルの意味情報の間のクロスレイヤー関係を活用し、クロスレイヤー特徴の集約を促進することで、入力画像に対する特徴表現能力を向上させる。さらに、CIAモジュールを導入して、空間領域全体にわたり関連情報を強化し、不要な情報を抑制するアライメント特徴マップを生成する。本手法の背後にある仮定は、同一カテゴリに属する入力はCIAモジュールの入力に対してよりアライメントされた特徴マップを持つべきであるというものである。この仮定に基づき、各CIAブロック内での特徴アライメントを監督するため、セマンティック類似度損失(Semantic Affinity Loss)を導入した。4つの難易度の高いデータセットにおける実験結果から、提案手法AENetが既存の最先端手法を上回る優れた性能を達成することが示された。

細粒度視覚カテゴリ化のためのアライメント強化ネットワーク | 最新論文 | HyperAI超神経