17日前
SR-GNN:細粒度画像分類のための空間関係認識型グラフニューラルネットワーク
Asish Bera, Zachary Wharton, Yonghuai Liu, Nik Bessis, Ardhendu Behera

要約
近年、深層畳み込みニューラルネットワーク(CNN)を活用した画像認識分野において、顕著な進展が見られている。これは、このようなネットワークがテクスチャや形状から判別性の高い物体の姿勢や部分情報を効果的に抽出できる強力な能力に起因している。しかし、この特性は、オクルージョン、変形、照明の変化などの要因により、クラス内変動が大きく、クラス間変動が小さいという特徴を示す細粒度視覚分類(FGVC)には不適切であることが多い。したがって、物体やシーンの全体的な構造情報を効果的に表現する特徴表現が、本質的な課題となる。本研究では、境界ボックスや明確な部分アノテーションを必要とせずに、最も関連性の高い画像領域からのコンテキストに配慮した特徴を統合し、その重要度を評価することで、微細な変化を効果的に捉える手法を提案する。このアプローチは、最近の自己注意機構(self-attention)およびグラフニューラルネットワーク(GNN)の進展に着想を得ており、シンプルでありながら効果的な関係認識型特徴変換を導入し、コンテキストに配慮したアテンション機構を用いて特徴の精緻化を実現することで、エンドツーエンド学習プロセスにおいて特徴の判別力を向上させる。提案モデルは、細粒度物体および人-物体インタラクションを含む8つのベンチマークデータセット上で評価され、認識精度において既存の最先端手法を大きく上回る性能を示した。