HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

MMTok : Maximisation de la couverture multimodale pour une inférence efficace des modèles de vision et de langage

Sixun Dong Juhua Hu Mian Zhang Ming Yin Yanjie Fu Qi Qian

MMTok : Maximisation de la couverture multimodale pour une inférence efficace des modèles de vision et de langage

Résumé

Les modèles vision-langage (VLM) montrent des performances remarquables dans la compréhension du contenu visuel grâce à des instructions linguistiques, en convertissant l’entrée visuelle en jetons visuels. Toutefois, la redondance de ces jetons visuels entraîne une dégradation de l’efficacité du raisonnement dans les VLM. Bien que de nombreuses méthodes aient été proposées pour réduire le nombre de jetons visuels, la plupart d’entre elles ne s’appuient que sur des informations unimodales (c’est-à-dire visuelles ou textuelles) pour effectuer la suppression de jetons, en ignorant ainsi la propriété intrinsèquement multimodale des tâches vision-langage. De plus, il manque un critère généralisable pouvant s’appliquer à différentes modalités. Pour pallier cette limitation, nous proposons dans ce travail d’exploiter à la fois les jetons visuels et textuels afin de sélectionner les jetons visuels les plus informatifs, selon le critère de couverture. Nous formulons d’abord le problème de sélection de sous-ensemble comme un problème de couverture maximale. Ensuite, un sous-ensemble de jetons visuels est optimisé pour couvrir simultanément les jetons textuels et l’ensemble original des jetons visuels. Enfin, un agent VLM peut être utilisé pour améliorer ultérieurement la qualité des jetons textuels, afin de guider efficacement la suppression des jetons visuels. La méthode proposée, MMTok, a été évaluée de manière extensive sur des jeux de données standard avec différents VLM. Les résultats comparatifs montrent que les informations visuelles et textuelles sont complémentaires, et que l’exploitation conjointe des données multimodales permet de dépasser clairement la performance de la base unimodale. En outre, sur le jeu de données POPE, selon le critère de couverture maximale, notre méthode atteint un gain de vitesse de 1,87 fois tout en conservant 98,7 % de la performance initiale sur LLaVA-NeXT-13B. De plus, avec seulement quatre jetons visuels, elle préserve encore 87,7 % de la performance initiale sur LLaVA-1.5-7B. Ces résultats mettent en évidence l’efficacité du critère de couverture dans la sélection de jetons.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MMTok : Maximisation de la couverture multimodale pour une inférence efficace des modèles de vision et de langage | Articles de recherche | HyperAI