HyperAIHyperAI

Command Palette

Search for a command to run...

MetaFormer : un cadre méta unifié pour la reconnaissance fine-grainée

Qishuai Diao Yi Jiang Bin Wen Jia Sun Zehuan Yuan

Résumé

La classification visuelle fine-grainée (FGVC) est la tâche consistant à reconnaître des objets appartenant à plusieurs sous-catégories d'une même super-catégorie. Les méthodes les plus récentes de pointe conçoivent généralement des pipelines d'apprentissage complexes pour aborder cette tâche. Toutefois, les informations visuelles seules sont souvent insuffisantes pour différencier avec précision entre les catégories visuelles fines. À l'heure actuelle, des métadonnées (par exemple, des priori spatio-temporels, des attributs ou des descriptions textuelles) accompagnent fréquemment les images. Cela nous amène à nous poser la question suivante : est-il possible d'utiliser un cadre unifié et simple pour exploiter divers types de métadonnées afin d'aider à la classification fine-grainée ? Pour répondre à cette problématique, nous proposons un cadre métadonnées unifié et puissant, appelé MetaFormer, dédié à la FGVC. En pratique, MetaFormer offre une approche simple mais efficace pour traiter l'apprentissage conjoint de l'information visuelle et de diverses métadonnées. En outre, MetaFormer fournit également une base solide pour la FGVC, sans nécessiter de composants supplémentaires complexes. Des expériences étendues démontrent que MetaFormer peut exploiter efficacement divers types de métadonnées afin d'améliorer les performances de reconnaissance fine-grainée. Dans une comparaison équitable, MetaFormer surpasser les méthodes d'état de l'art actuelles utilisant uniquement des informations visuelles sur les jeux de données iNaturalist2017 et iNaturalist2018. En ajoutant des métadonnées, MetaFormer dépasse les méthodes d'état de l'art actuelles respectivement de 5,9 % et 5,3 %. De plus, MetaFormer atteint des résultats de 92,3 % et 92,7 % sur les jeux de données CUB-200-2011 et NABirds, dépassant significativement les approches d'état de l'art. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/dqshuai/MetaFormer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp