il y a 8 mois

Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin

Résumé

Les modèles linguistiques à grande échelle multimodaux (MLLMs) ont connu un succès remarquable dans la compréhension visuelle, le raisonnement et l’interaction. Toutefois, le calcul d’inférence et la mémoire s’accroissent progressivement avec la génération des jetons de sortie lors du décodage, ce qui affecte directement l’efficacité des MLLMs. Les méthodes existantes tentent de réduire la redondance du contexte visuel afin d’obtenir des MLLMs plus efficaces. Malheureusement, les bénéfices d’efficacité liés à la réduction du contexte visuel pendant l’étape de pré-remplissage s’atténuent progressivement durant l’étape de décodage. Pour résoudre ce problème, nous proposons un cadre dynamique de réduction de densité du contexte vision-langage, appelé Dynamic-LLaVA, qui réduit dynamiquement la redondance du contexte visuel pendant la phase de pré-remplissage et diminue simultanément la surcharge mémoire et computationnelle du contexte linguistique généré lors du décodage. Dynamic-LLaVA met en œuvre une stratégie d’inférence par réduction de densité adaptée aux différents modes d’inférence, à savoir : pré-remplissage, décodage avec ou sans mémoire tampon de clés-valeurs (KV cache), afin d’assurer une inférence efficace des MLLMs. En pratique, Dynamic-LLaVA permet de réduire la consommation de calcul d’environ 75 % pendant la phase de pré-remplissage. Par ailleurs, tout au long du processus complet de génération des MLLMs, Dynamic-LLaVA diminue la consommation de calcul d’environ 50 % lors du décodage sans KV cache, tout en économisant environ 50 % de la surcharge mémoire GPU lors du décodage avec KV cache, grâce à la réduction de densité du contexte vision-langage. Des expériences étendues démontrent également que Dynamic-LLaVA permet une inférence efficace des MLLMs avec une dégradation négligeable, voire une amélioration des performances en termes de compréhension et de génération par rapport aux méthodes de référence basées sur un contexte complet. Le code est disponible à l’adresse suivante : https://github.com/Osilly/dynamic_llava.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Dynamic-LLaVA : Modèles linguistiques massifs multimodaux efficaces grâce à la simplification dynamique du contexte vision-langage | Articles | HyperAI

Command Palette

Dynamic-LLaVA : Modèles linguistiques massifs multimodaux efficaces grâce à la simplification dynamique du contexte vision-langage

Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Dynamic-LLaVA : Modèles linguistiques massifs multimodaux efficaces grâce à la simplification dynamique du contexte vision-langage

Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Dynamic-LLaVA : Modèles linguistiques massifs multimodaux efficaces grâce à la simplification dynamique du contexte vision-langage

Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters