Un nouveau module plug-in pour la classification visuelle à granularité fine

La classification visuelle peut être divisée en classification grossière et classification fine. La classification grossière concerne des catégories très différentes, comme la distinction entre chats et chiens, tandis que la classification fine s’applique à des catégories très similaires, telles que les espèces de chats, les espèces d’oiseaux ou les marques et modèles de véhicules. Contrairement à la classification visuelle grossière, la classification visuelle fine exige souvent l’intervention d’experts spécialisés pour l’étiquetage des données, ce qui rend ces données plus coûteuses. Pour relever ce défi, de nombreuses approches proposent de détecter automatiquement les régions les plus discriminantes et d’utiliser des caractéristiques locales afin d’obtenir des représentations plus précises. Ces méthodes n’exigent que des annotations au niveau de l’image, réduisant ainsi le coût d’étiquetage. Toutefois, la plupart de ces approches reposent sur des architectures à deux ou plusieurs étapes et ne peuvent pas être entraînées de manière end-to-end. Nous proposons donc un nouveau module plug-in pouvant être intégré à de nombreux architectures courantes, y compris les réseaux basés sur CNN ou sur Transformer, afin de fournir des régions fortement discriminantes. Ce module plug-in peut produire des cartes de caractéristiques au niveau des pixels et fusionner les caractéristiques filtrées afin d’améliorer la classification visuelle fine. Les résultats expérimentaux montrent que le module plug-in proposé dépasse les méthodes de pointe, améliorant significativement la précision à 92,77 % et 92,83 % sur les jeux de données CUB200-2011 et NABirds, respectivement. Nous avons rendu disponible notre code source sur GitHub à l’adresse suivante : https://github.com/chou141253/FGVC-PIM.git.