HyperAIHyperAI

Command Palette

Search for a command to run...

Dynamic-LLaVA : Modèles linguistiques massifs multimodaux efficaces grâce à la simplification dynamique du contexte vision-langage

Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLMs) ont connu un succès remarquable dans la compréhension visuelle, le raisonnement et l’interaction. Toutefois, le calcul d’inférence et la mémoire s’accroissent progressivement avec la génération des jetons de sortie lors du décodage, ce qui affecte directement l’efficacité des MLLMs. Les méthodes existantes tentent de réduire la redondance du contexte visuel afin d’obtenir des MLLMs plus efficaces. Malheureusement, les bénéfices d’efficacité liés à la réduction du contexte visuel pendant l’étape de pré-remplissage s’atténuent progressivement durant l’étape de décodage. Pour résoudre ce problème, nous proposons un cadre dynamique de réduction de densité du contexte vision-langage, appelé Dynamic-LLaVA, qui réduit dynamiquement la redondance du contexte visuel pendant la phase de pré-remplissage et diminue simultanément la surcharge mémoire et computationnelle du contexte linguistique généré lors du décodage. Dynamic-LLaVA met en œuvre une stratégie d’inférence par réduction de densité adaptée aux différents modes d’inférence, à savoir : pré-remplissage, décodage avec ou sans mémoire tampon de clés-valeurs (KV cache), afin d’assurer une inférence efficace des MLLMs. En pratique, Dynamic-LLaVA permet de réduire la consommation de calcul d’environ 75 % pendant la phase de pré-remplissage. Par ailleurs, tout au long du processus complet de génération des MLLMs, Dynamic-LLaVA diminue la consommation de calcul d’environ 50 % lors du décodage sans KV cache, tout en économisant environ 50 % de la surcharge mémoire GPU lors du décodage avec KV cache, grâce à la réduction de densité du contexte vision-langage. Des expériences étendues démontrent également que Dynamic-LLaVA permet une inférence efficace des MLLMs avec une dégradation négligeable, voire une amélioration des performances en termes de compréhension et de génération par rapport aux méthodes de référence basées sur un contexte complet. Le code est disponible à l’adresse suivante : https://github.com/Osilly/dynamic_llava.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Dynamic-LLaVA : Modèles linguistiques massifs multimodaux efficaces grâce à la simplification dynamique du contexte vision-langage | Articles | HyperAI