il y a 2 mois

LLaVA-NeXT-Interleave : Gérer les images multiples, la vidéo et la 3D dans les grands modèles multimodaux

Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li

Résumé

L'ajustement des instructions visuelles a fait d'importants progrès pour améliorer les capacités des grands modèles multimodaux (LMMs). Cependant, les LMMs ouverts existants se concentrent principalement sur des tâches à image unique, et leurs applications aux scénarios à plusieurs images restent moins explorées. De plus, les recherches antérieures en LMM abordent séparément différents scénarios, ce qui rend impossible la généralisation trans-scénarios avec de nouvelles capacités émergentes. A cet égard, nous présentons LLaVA-NeXT-Interleave, qui traite simultanément des scénarios à plusieurs images, à plusieurs cadres (vidéo), à plusieurs vues (3D) et à plusieurs patches (image unique) dans les LMMs. Pour permettre ces capacités, nous considérons le format de données entrelacées comme un modèle général et compilons le jeu de données M4-Instruct avec 1 177 600 échantillons, couvrant 4 domaines principaux comprenant 14 tâches et 41 jeux de données. Nous avons également élaboré le banc d'essai LLaVA-Interleave pour évaluer de manière exhaustive les performances multi-images des LMMs. Grâce à des expériences approfondies, LLaVA-NeXT-Interleave obtient des résultats de pointe dans les benchmarks multi-images, vidéo et 3D, tout en maintenant les performances des tâches à image unique. En outre, notre modèle présente également plusieurs capacités émergentes, par exemple le transfert de tâches entre différents paramètres et modalités. Le code est disponible sur https://github.com/LLaVA-VL/LLaVA-NeXT