Arbre binaire convolutif à attention pour la catégorisation visuelle fine

La catégorisation visuelle fine (FGVC) est une tâche importante mais difficile en raison des fortes variations intra-classes et des faibles variations inter-classes provoquées par des déformations, des occlusions, des variations d'éclairage, etc. Nous proposons une architecture de réseau neuronal binaire à convolution et à arbre hiérarchique pour aborder ces problèmes dans le cadre de la FGVC faiblement supervisée. Plus précisément, nous intégrons des opérations de convolution le long des arêtes de la structure arborescente, et utilisons des fonctions de routage au niveau de chaque nœud pour déterminer les chemins de calcul allant de la racine jusqu'aux feuilles. La décision finale est calculée comme la somme des prédictions émises par les nœuds feuilles. Les opérations de convolution profondes apprennent à capturer les représentations des objets, tandis que la structure arborescente modélise un processus hiérarchique de apprentissage des caractéristiques de grossier à fin. En outre, nous introduisons un module d'attention transformer afin d’inciter le réseau à extraire des caractéristiques discriminantes. Le réseau entier est entraîné de manière end-to-end par descente de gradient (SGD) avec rétropropagation, en utilisant une fonction de perte de log-vraisemblance négative. Plusieurs expériences sur les jeux de données CUB-200-2011, Stanford Cars et Aircraft montrent que la méthode proposée obtient des performances supérieures aux états de l’art.