LLaVA-NeXT-Interleave : Gérer les images multiples, la vidéo et la 3D dans les grands modèles multimodaux

L'ajustement des instructions visuelles a fait d'importants progrès pour améliorer les capacités des grands modèles multimodaux (LMMs). Cependant, les LMMs ouverts existants se concentrent principalement sur des tâches à image unique, et leurs applications aux scénarios à plusieurs images restent moins explorées. De plus, les recherches antérieures en LMM abordent séparément différents scénarios, ce qui rend impossible la généralisation trans-scénarios avec de nouvelles capacités émergentes. A cet égard, nous présentons LLaVA-NeXT-Interleave, qui traite simultanément des scénarios à plusieurs images, à plusieurs cadres (vidéo), à plusieurs vues (3D) et à plusieurs patches (image unique) dans les LMMs. Pour permettre ces capacités, nous considérons le format de données entrelacées comme un modèle général et compilons le jeu de données M4-Instruct avec 1 177 600 échantillons, couvrant 4 domaines principaux comprenant 14 tâches et 41 jeux de données. Nous avons également élaboré le banc d'essai LLaVA-Interleave pour évaluer de manière exhaustive les performances multi-images des LMMs. Grâce à des expériences approfondies, LLaVA-NeXT-Interleave obtient des résultats de pointe dans les benchmarks multi-images, vidéo et 3D, tout en maintenant les performances des tâches à image unique. En outre, notre modèle présente également plusieurs capacités émergentes, par exemple le transfert de tâches entre différents paramètres et modalités. Le code est disponible sur https://github.com/LLaVA-VL/LLaVA-NeXT