
要約
細粒度視覚分類は、同一カテゴリ内に属する複数のサブカテゴリの画像を識別することを目的とする。このタスクは、類似性が極めて高いカテゴリ間における本質的な微細な差異により、困難を伴う。既存の多くは個々の画像を入力として扱うが、これでは異なる画像間の対比的特徴を捉える能力に限界がある。本論文では、この課題に対処するため、プログレッシブ共注意ネットワーク(PCA-Net)と呼ばれる有効な手法を提案する。具体的には、同一カテゴリの画像ペア間における特徴チャネル間の相互作用を促進することで、チャネルごとの類似性を計算し、共通の識別的特徴を捉える。また、補完的な情報も識別に重要であることを考慮し、チャネル相互作用によって強調された顕著な領域を消去することで、ネットワークが他の識別的領域に注目するよう促す。提案手法は、CUB-200-2011、Stanford Cars、FGVC Aircraftの3つの細粒度視覚分類ベンチマークデータセットにおいて、競争力ある結果を達成した。