3ヶ月前
細粒度視覚認識のためのPart-guided Relational Transformers
Yifan Zhao, Jia Li, Xiaowu Chen, Yonghong Tian

要約
細粒度視覚認識は、外見が類似した物体をサブカテゴリに分類するタスクであり、深層畳み込みニューラルネットワーク(deep CNNs)の発展に伴い著しい進展を遂げてきた。しかし、異なるサブカテゴリ間の微細な差異を適切に処理することは依然として課題である。本論文では、この問題を統一的なフレームワークにより二つの視点から解決する手法を提案する。すなわち、特徴レベルにおける相互関係の構築と、部位レベルでの識別的特徴の捉え方である。本研究で提案するフレームワーク「PART(Part-guided Relational Transformers)」は、自動部位発見モジュールを用いて識別的部位特徴を学習し、自然言語処理分野で用いられるTransformerモデルを適応することで、特徴変換モジュールを用いて内在的な相関関係を探索する。自動部位発見モジュールは、勾配降下法のプロセスと高相関性を持つ識別的領域を効率的に発見する。その後、第二の特徴変換モジュールにより、グローバルな埋め込みと複数の部位埋め込みの間に相関関係を構築し、意味的なピクセル間の空間的相互作用を強化する。さらに、本手法は推論時に追加の部位ブランチを必要とせず、3つの広く用いられている細粒度物体認識ベンチマークにおいて最先端の性能を達成している。実験結果および説明可能な視覚化により、提案手法の有効性が実証された。コードは https://github.com/iCVTEAM/PART で公開されている。