Command Palette
Search for a command to run...
HyperLLaVA : Adaptation dynamique des experts visuels et linguistiques pour les modèles linguistiques multimodaux à grande échelle
HyperLLaVA : Adaptation dynamique des experts visuels et linguistiques pour les modèles linguistiques multimodaux à grande échelle
Résumé
Les avancées récentes indiquent que l’augmentation de l’échelle des modèles linguistiques multimodaux (MLLM) améliore efficacement les performances sur les tâches multimodales en aval. Le paradigme actuel des MLLM, tel que LLaVA, transforme les caractéristiques visuelles en jetons de type texte à l’aide d’un mapper vision-langage statique, permettant ainsi aux modèles linguistiques pré-entraînés statiques de développer une capacité à comprendre l’information visuelle grâce à une mise au point par instruction visuelle. Bien que prometteur, ce mécanisme de mise au point statique~\footnote{Par « mise au point statique », on entend un modèle entraîné avec des paramètres fixes.} — qui utilise les mêmes paramètres pour toutes les tâches — peut limiter les performances sur différentes tâches multimodales en aval. À cet égard, nous proposons HyperLLaVA, une approche reposant sur une mise au point adaptative des paramètres du projecteur et du modèle linguistique, combinée à des experts visuels et linguistiques dynamiques, respectivement. Ces experts sont extraits de réseaux hyper, qui génèrent des ajustements adaptatifs des paramètres grâce à une guidance visuelle et linguistique, permettant ainsi une modélisation dynamique du projecteur et du modèle linguistique au cours d’un entraînement en deux étapes. Nos expérimentations montrent que notre solution surpasse significativement LLaVA sur les benchmarks existants de MLLM, notamment MME, MMBench, SEED-Bench et LLaVA-Bench. ~\footnote{Notre projet est disponible à l’adresse : https://github.com/DCDmllm/HyperLLaVA}