Apprentissage d'interactions appariées attentives pour la classification fine

La classification fine-grained constitue un problème difficile, en raison des différences subtiles entre des catégories fortement confondues. La plupart des approches tentent de surmonter cette difficulté en apprenant des représentations discriminatives à partir d'une image individuelle. En revanche, les êtres humains parviennent efficacement à identifier des indices contrastifs en comparant des paires d'images. Inspirés par ce phénomène, nous proposons dans cet article un réseau simple mais efficace, appelé API-Net (Attentive Pairwise Interaction Network), capable de reconnaître progressivement une paire d'images fine-grained grâce à une interaction entre elles. Plus précisément, API-Net apprend d'abord un vecteur de caractéristiques mutuelles afin de capturer les différences sémantiques présentes dans la paire d'entrée. Il compare ensuite ce vecteur mutuel avec les vecteurs individuels associés à chaque image afin de générer des portes (gates) pour chacune d'entre elles. Ces vecteurs de portes distincts intègrent le contexte mutuel relatif aux différences sémantiques, permettant ainsi à API-Net de capturer de manière attentive les indices contrastifs grâce à une interaction par paire entre les deux images. Par ailleurs, nous entraînons API-Net de manière end-to-end en utilisant une régularisation basée sur le classement des scores, qui améliore davantage la généralisation du modèle en tenant compte des priorités des caractéristiques. Nous menons des expériences étendues sur cinq benchmarks populaires en classification fine-grained. API-Net surpasser les méthodes de l'état de l'art récentes, obtenant des résultats de 90,0 % sur CUB-200-2011, 93,9 % sur Aircraft, 95,3 % sur Stanford Cars, 90,3 % sur Stanford Dogs et 88,1 % sur NABirds.