il y a 10 mois

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Résumé

Les avancées récentes indiquent que l’augmentation de l’échelle des modèles linguistiques multimodaux (MLLM) améliore efficacement les performances sur les tâches multimodales en aval. Le paradigme actuel des MLLM, tel que LLaVA, transforme les caractéristiques visuelles en jetons de type texte à l’aide d’un mapper vision-langage statique, permettant ainsi aux modèles linguistiques pré-entraînés statiques de développer une capacité à comprendre l’information visuelle grâce à une mise au point par instruction visuelle. Bien que prometteur, ce mécanisme de mise au point statique~\footnote{Par « mise au point statique », on entend un modèle entraîné avec des paramètres fixes.} — qui utilise les mêmes paramètres pour toutes les tâches — peut limiter les performances sur différentes tâches multimodales en aval. À cet égard, nous proposons HyperLLaVA, une approche reposant sur une mise au point adaptative des paramètres du projecteur et du modèle linguistique, combinée à des experts visuels et linguistiques dynamiques, respectivement. Ces experts sont extraits de réseaux hyper, qui génèrent des ajustements adaptatifs des paramètres grâce à une guidance visuelle et linguistique, permettant ainsi une modélisation dynamique du projecteur et du modèle linguistique au cours d’un entraînement en deux étapes. Nos expérimentations montrent que notre solution surpasse significativement LLaVA sur les benchmarks existants de MLLM, notamment MME, MMBench, SEED-Bench et LLaVA-Bench. ~\footnote{Notre projet est disponible à l’adresse : https://github.com/DCDmllm/HyperLLaVA}

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Discuter sur Discord

il y a 10 mois

Réponse À Des Questions Visuelles

Apprentissage Multi-tâches

Transformer

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Discuter sur Discord

il y a 10 mois

Réponse À Des Questions Visuelles

Apprentissage Multi-tâches

Transformer

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

HyperLLaVA : Adaptation dynamique des experts visuels et linguistiques pour les modèles linguistiques multimodaux à grande échelle

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HyperLLaVA : Adaptation dynamique des experts visuels et linguistiques pour les modèles linguistiques multimodaux à grande échelle

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HyperLLaVA : Adaptation dynamique des experts visuels et linguistiques pour les modèles linguistiques multimodaux à grande échelle

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang

Wenqiao Zhang Tianwei Lin Jiang Liu Fangxun Shu Haoyuan Li Lei Zhang He Wanggui Hao Zhou Zheqi Lv Hao Jiang