
要約
細粒度分類は、類似度の高いカテゴリ間の微細な差異に起因して困難な問題である。従来の大多数のアプローチは、個々の入力画像から判別力のある表現を学習することでこの課題に取り組んできた。一方で、人間は画像ペアを比較することで、対照的な特徴を効果的に捉えることができる。この事実に着目し、本論文では、画像ペア間の相互作用を通じて段階的に細粒度画像を認識できる、シンプルながら有効な「注意型ペアワイズ相互作用ネットワーク(Attentive Pairwise Interaction Network, API-Net)」を提案する。具体的には、API-Netはまず入力ペアにおける意味的差異を捉えるための相互特徴ベクトルを学習する。次に、この相互ベクトルを各入力画像の個別ベクトルと比較し、それぞれの入力画像に対してゲートを生成する。これらの異なるゲートベクトルは、意味的差異に関する相互な文脈を継承しており、API-Netが2枚の画像間のペアワイズ相互作用を通じて対照的な特徴を注意深く捉えることを可能にする。さらに、特徴の優先順位を考慮したスコア順位正則化を用いて、API-Netをエンド・トゥ・エンドで学習することで、より高い汎化性能を実現している。本研究では、細粒度分類において広く用いられる5つの代表的なベンチマークデータセットにおいて広範な実験を実施した。その結果、API-Netは最新のSOTA(最先端)手法を上回り、それぞれCUB-200-2011(90.0%)、Aircraft(93.9%)、Stanford Cars(95.3%)、Stanford Dogs(90.3%)、NABirds(88.1%)の精度を達成した。