HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration de la stimulation multimodale pour la classification visuelle fine-grain

Xin Jiang Hao Tang Junyao Gao Xiaoyu Du Shengfeng He Zechao Li

Résumé

La classification visuelle fine-grain (FGVC) consiste à catégoriser des sous-classes subtilement distinctes au sein d'une catégorie plus large, ce qui soulève des défis en raison des différences inter-classes minimes et des variations intra-classes importantes. Toutefois, les approches actuelles se concentrent principalement sur des concepts visuels unimodaux. Les récents progrès réalisés dans les modèles pré-entraînés vision-langage ont démontré des performances remarquables sur diverses tâches de vision de haut niveau, mais leur applicabilité à la FGVC reste encore incertaine. Dans ce papier, nous visons à exploiter pleinement les capacités des descriptions multimodales afin de relever les défis de la FGVC, et proposons une nouvelle solution de stimulation multimodale, désignée MP-FGVC, basée sur le modèle CLIP (Contrastive Language-Image Pre-training). Notre MP-FGVC repose sur deux composantes : un schéma de prompts multimodaux et un schéma d’adaptation multimodale. Le premier inclut un prompt visuel spécifique à la sous-catégorie (SsVP) et un prompt textuel sensible aux différences (DaTP), qui mettent explicitement en évidence les différences spécifiques aux sous-catégories sous les angles visuel et linguistique. Le second aligne les éléments de stimulation visuelle et textuelle dans un espace sémantique commun, favorisant un raisonnement collaboratif multimodal grâce à un module de fusion vision-langage (VLFM), permettant ainsi une amélioration supplémentaire de la performance en FGVC. En outre, nous avons conçu une stratégie d’optimisation en deux étapes pour MP-FGVC, permettant d’exploiter pleinement le modèle pré-entraîné CLIP et d’accélérer l’adaptation efficace à la tâche FGVC. Des expériences étendues menées sur quatre jeux de données de FGVC démontrent l’efficacité de notre approche MP-FGVC.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp