HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-NeXT-Interleave : Gérer les images multiples, la vidéo et la 3D dans les grands modèles multimodaux

Feng Li Renrui Zhang Hao Zhang Yuanhan Zhang Bo Li Wei Li Zejun Ma Chunyuan Li

Résumé

L'ajustement des instructions visuelles a fait d'importants progrès pour améliorer les capacités des grands modèles multimodaux (LMMs). Cependant, les LMMs ouverts existants se concentrent principalement sur des tâches à image unique, et leurs applications aux scénarios à plusieurs images restent moins explorées. De plus, les recherches antérieures en LMM abordent séparément différents scénarios, ce qui rend impossible la généralisation trans-scénarios avec de nouvelles capacités émergentes. A cet égard, nous présentons LLaVA-NeXT-Interleave, qui traite simultanément des scénarios à plusieurs images, à plusieurs cadres (vidéo), à plusieurs vues (3D) et à plusieurs patches (image unique) dans les LMMs. Pour permettre ces capacités, nous considérons le format de données entrelacées comme un modèle général et compilons le jeu de données M4-Instruct avec 1 177 600 échantillons, couvrant 4 domaines principaux comprenant 14 tâches et 41 jeux de données. Nous avons également élaboré le banc d'essai LLaVA-Interleave pour évaluer de manière exhaustive les performances multi-images des LMMs. Grâce à des expériences approfondies, LLaVA-NeXT-Interleave obtient des résultats de pointe dans les benchmarks multi-images, vidéo et 3D, tout en maintenant les performances des tâches à image unique. En outre, notre modèle présente également plusieurs capacités émergentes, par exemple le transfert de tâches entre différents paramètres et modalités. Le code est disponible sur https://github.com/LLaVA-VL/LLaVA-NeXT


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp