il y a 17 jours

MetaFormer : un cadre méta unifié pour la reconnaissance fine-grainée

Qishuai Diao, Yi Jiang, Bin Wen, Jia Sun, Zehuan Yuan

Résumé

La classification visuelle fine-grainée (FGVC) est la tâche consistant à reconnaître des objets appartenant à plusieurs sous-catégories d'une même super-catégorie. Les méthodes les plus récentes de pointe conçoivent généralement des pipelines d'apprentissage complexes pour aborder cette tâche. Toutefois, les informations visuelles seules sont souvent insuffisantes pour différencier avec précision entre les catégories visuelles fines. À l'heure actuelle, des métadonnées (par exemple, des priori spatio-temporels, des attributs ou des descriptions textuelles) accompagnent fréquemment les images. Cela nous amène à nous poser la question suivante : est-il possible d'utiliser un cadre unifié et simple pour exploiter divers types de métadonnées afin d'aider à la classification fine-grainée ? Pour répondre à cette problématique, nous proposons un cadre métadonnées unifié et puissant, appelé MetaFormer, dédié à la FGVC. En pratique, MetaFormer offre une approche simple mais efficace pour traiter l'apprentissage conjoint de l'information visuelle et de diverses métadonnées. En outre, MetaFormer fournit également une base solide pour la FGVC, sans nécessiter de composants supplémentaires complexes. Des expériences étendues démontrent que MetaFormer peut exploiter efficacement divers types de métadonnées afin d'améliorer les performances de reconnaissance fine-grainée. Dans une comparaison équitable, MetaFormer surpasser les méthodes d'état de l'art actuelles utilisant uniquement des informations visuelles sur les jeux de données iNaturalist2017 et iNaturalist2018. En ajoutant des métadonnées, MetaFormer dépasse les méthodes d'état de l'art actuelles respectivement de 5,9 % et 5,3 %. De plus, MetaFormer atteint des résultats de 92,3 % et 92,7 % sur les jeux de données CUB-200-2011 et NABirds, dépassant significativement les approches d'état de l'art. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/dqshuai/MetaFormer.