HyperAIHyperAI

Command Palette

Search for a command to run...

HyperLLaVA : Adaptation dynamique des experts visuels et linguistiques pour les modèles linguistiques multimodaux à grande échelle

Résumé

Les avancées récentes indiquent que l’augmentation de l’échelle des modèles linguistiques multimodaux (MLLM) améliore efficacement les performances sur les tâches multimodales en aval. Le paradigme actuel des MLLM, tel que LLaVA, transforme les caractéristiques visuelles en jetons de type texte à l’aide d’un mapper vision-langage statique, permettant ainsi aux modèles linguistiques pré-entraînés statiques de développer une capacité à comprendre l’information visuelle grâce à une mise au point par instruction visuelle. Bien que prometteur, ce mécanisme de mise au point statique~\footnote{Par « mise au point statique », on entend un modèle entraîné avec des paramètres fixes.} — qui utilise les mêmes paramètres pour toutes les tâches — peut limiter les performances sur différentes tâches multimodales en aval. À cet égard, nous proposons HyperLLaVA, une approche reposant sur une mise au point adaptative des paramètres du projecteur et du modèle linguistique, combinée à des experts visuels et linguistiques dynamiques, respectivement. Ces experts sont extraits de réseaux hyper, qui génèrent des ajustements adaptatifs des paramètres grâce à une guidance visuelle et linguistique, permettant ainsi une modélisation dynamique du projecteur et du modèle linguistique au cours d’un entraînement en deux étapes. Nos expérimentations montrent que notre solution surpasse significativement LLaVA sur les benchmarks existants de MLLM, notamment MME, MMBench, SEED-Bench et LLaVA-Bench. ~\footnote{Notre projet est disponible à l’adresse : https://github.com/DCDmllm/HyperLLaVA}


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp