Réseau de Co-Attention Progressif pour la Classification Visuelle Fine-Grainée

La classification visuelle fine vise à reconnaître des images appartenant à plusieurs sous-catégories au sein d'une même catégorie. Il s'agit d'une tâche difficile en raison des variations subtiles inhérentes entre des catégories fortement confondantes. La plupart des méthodes existantes ne prennent qu'une image individuelle comme entrée, ce qui peut limiter la capacité des modèles à identifier des indices contrastifs issus d'images différentes. Dans cet article, nous proposons une méthode efficace appelée réseau de co-attention progressive (PCA-Net) pour relever ce défi. Plus précisément, nous calculons la similarité par canal en encourageant une interaction entre les canaux de caractéristiques au sein de paires d'images de même catégorie, afin de capturer les caractéristiques discriminantes communes. Étant donné que les informations complémentaires sont également cruciales pour la reconnaissance, nous supprimons les zones fortement renforcées par l’interaction entre canaux, forçant ainsi le réseau à se concentrer sur d'autres régions discriminantes. Le modèle proposé obtient des résultats compétitifs sur trois jeux de données standards de classification visuelle fine : CUB-200-2011, Stanford Cars et FGVC Aircraft.