Classification visuelle fine-grained avec localisation efficace en bout-en-bout

Le terme classification visuelle fine-grained (FGVC) désigne des tâches de classification où les classes sont très similaires, et où le modèle de classification doit être capable de détecter des différences subtiles pour effectuer une prédiction correcte. Les approches les plus récentes incluent souvent une étape de localisation conçue pour aider le réseau de classification en localisant les parties pertinentes des images d'entrée. Toutefois, cela nécessite généralement plusieurs itérations ou passages à travers un réseau de classification complet, ou encore des schémas d'entraînement complexes. Dans ce travail, nous proposons un module de localisation efficace pouvant être intégré à un réseau de classification dans une architecture end-to-end. D'une part, ce module est entraîné grâce au gradient provenant du réseau de classification. D'autre part, deux fonctions de perte auto-supervisées sont introduites afin d'améliorer la précision de localisation. Nous évaluons le nouveau modèle sur trois jeux de données de référence : CUB200-2011, Stanford Cars et FGVC-Aircraft, et parvenons à obtenir des performances de reconnaissance compétitives.