HyperAIHyperAI
il y a 17 jours

Réseau d'amélioration de l'alignement pour la catégorisation visuelle fine-grain

{Yutao Hu}
Résumé

La catégorisation visuelle fine (FGVC) vise à reconnaître automatiquement des objets appartenant à différentes catégories sous-ordinées. Malgré l’attention considérable qu’elle suscite tant dans le milieu académique que dans l’industrie, cette tâche reste particulièrement difficile en raison des différences visuelles subtiles entre les classes. L’agrégation des caractéristiques à travers les couches et l’apprentissage par paires entre images sont devenus des approches prédominantes pour améliorer les performances de la FGVC, en permettant d’extraire des caractéristiques spécifiques aux classes de manière discriminante. Toutefois, ces méthodes restent inefficaces pour exploiter pleinement les informations croisées entre couches, en raison de stratégies d’agrégation simples, tandis que les méthodes existantes d’apprentissage par paires échouent à explorer les interactions à longue portée entre différentes images. Pour surmonter ces limitations, nous proposons un nouveau réseau, l’Alignment Enhancement Network (AENet), comprenant deux niveaux d’alignement : l’alignement entre couches (CLA) et l’alignement entre images (CIA). Le module CLA exploite la relation croisée entre les informations spatiales de bas niveau et les informations sémantiques de haut niveau, contribuant ainsi à une agrégation de caractéristiques entre couches afin d’améliorer la capacité de représentation des caractéristiques des images d’entrée. Le nouveau module CIA est introduit pour produire une carte de caractéristiques alignées, capable d’amplifier les informations pertinentes tout en supprimant les informations non pertinentes sur l’ensemble de la région spatiale. Notre méthode repose sur l’hypothèse fondamentale selon laquelle la carte de caractéristiques alignées doit être plus proche des entrées du CIA lorsque celles-ci appartiennent à la même catégorie. À cette fin, nous définissons une perte de similarité sémantique pour superviser l’alignement des caractéristiques au sein de chaque bloc CIA. Les résultats expérimentaux sur quatre jeux de données exigeants démontrent que le modèle AENet atteint des performances de pointe par rapport aux méthodes antérieures.