Command Palette
Search for a command to run...
Dynamic-LLaVA : Modèles linguistiques massifs multimodaux efficaces grâce à la simplification dynamique du contexte vision-langage
Dynamic-LLaVA : Modèles linguistiques massifs multimodaux efficaces grâce à la simplification dynamique du contexte vision-langage
Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin
Résumé
Les modèles linguistiques à grande échelle multimodaux (MLLMs) ont connu un succès remarquable dans la compréhension visuelle, le raisonnement et l’interaction. Toutefois, le calcul d’inférence et la mémoire s’accroissent progressivement avec la génération des jetons de sortie lors du décodage, ce qui affecte directement l’efficacité des MLLMs. Les méthodes existantes tentent de réduire la redondance du contexte visuel afin d’obtenir des MLLMs plus efficaces. Malheureusement, les bénéfices d’efficacité liés à la réduction du contexte visuel pendant l’étape de pré-remplissage s’atténuent progressivement durant l’étape de décodage. Pour résoudre ce problème, nous proposons un cadre dynamique de réduction de densité du contexte vision-langage, appelé Dynamic-LLaVA, qui réduit dynamiquement la redondance du contexte visuel pendant la phase de pré-remplissage et diminue simultanément la surcharge mémoire et computationnelle du contexte linguistique généré lors du décodage. Dynamic-LLaVA met en œuvre une stratégie d’inférence par réduction de densité adaptée aux différents modes d’inférence, à savoir : pré-remplissage, décodage avec ou sans mémoire tampon de clés-valeurs (KV cache), afin d’assurer une inférence efficace des MLLMs. En pratique, Dynamic-LLaVA permet de réduire la consommation de calcul d’environ 75 % pendant la phase de pré-remplissage. Par ailleurs, tout au long du processus complet de génération des MLLMs, Dynamic-LLaVA diminue la consommation de calcul d’environ 50 % lors du décodage sans KV cache, tout en économisant environ 50 % de la surcharge mémoire GPU lors du décodage avec KV cache, grâce à la réduction de densité du contexte vision-langage. Des expériences étendues démontrent également que Dynamic-LLaVA permet une inférence efficace des MLLMs avec une dégradation négligeable, voire une amélioration des performances en termes de compréhension et de génération par rapport aux méthodes de référence basées sur un contexte complet. Le code est disponible à l’adresse suivante : https://github.com/Osilly/dynamic_llava.