HyperAIHyperAI
il y a 18 jours

Exploration de la stimulation multimodale pour la classification visuelle fine-grain

Xin Jiang, Hao Tang, Junyao Gao, Xiaoyu Du, Shengfeng He, Zechao Li
Exploration de la stimulation multimodale pour la classification visuelle fine-grain
Résumé

La classification visuelle fine-grain (FGVC) consiste à catégoriser des sous-classes subtilement distinctes au sein d'une catégorie plus large, ce qui soulève des défis en raison des différences inter-classes minimes et des variations intra-classes importantes. Toutefois, les approches actuelles se concentrent principalement sur des concepts visuels unimodaux. Les récents progrès réalisés dans les modèles pré-entraînés vision-langage ont démontré des performances remarquables sur diverses tâches de vision de haut niveau, mais leur applicabilité à la FGVC reste encore incertaine. Dans ce papier, nous visons à exploiter pleinement les capacités des descriptions multimodales afin de relever les défis de la FGVC, et proposons une nouvelle solution de stimulation multimodale, désignée MP-FGVC, basée sur le modèle CLIP (Contrastive Language-Image Pre-training). Notre MP-FGVC repose sur deux composantes : un schéma de prompts multimodaux et un schéma d’adaptation multimodale. Le premier inclut un prompt visuel spécifique à la sous-catégorie (SsVP) et un prompt textuel sensible aux différences (DaTP), qui mettent explicitement en évidence les différences spécifiques aux sous-catégories sous les angles visuel et linguistique. Le second aligne les éléments de stimulation visuelle et textuelle dans un espace sémantique commun, favorisant un raisonnement collaboratif multimodal grâce à un module de fusion vision-langage (VLFM), permettant ainsi une amélioration supplémentaire de la performance en FGVC. En outre, nous avons conçu une stratégie d’optimisation en deux étapes pour MP-FGVC, permettant d’exploiter pleinement le modèle pré-entraîné CLIP et d’accélérer l’adaptation efficace à la tâche FGVC. Des expériences étendues menées sur quatre jeux de données de FGVC démontrent l’efficacité de notre approche MP-FGVC.

Exploration de la stimulation multimodale pour la classification visuelle fine-grain | Articles de recherche récents | HyperAI