LongVILA : Étendre les modèles de langage visuel à contexte long pour les vidéos longues

La capacité de traitement de contextes longs est cruciale pour les modèles fondamentaux multi-modaux. Nous présentons LongVILA, une solution complète pour les modèles vision-langage à contexte long, englobant le système, l'entraînement des modèles et le développement de jeux de données. Du côté du système, nous introduisons la première architecture de Parallélisme Séquentiel Multi-Modal (MM-SP) qui permet l'entraînement et l'inférence à contexte long, facilitant ainsi l'entraînement avec une longueur de contexte de 2 millions sur 256 GPU. Le MM-SP est également efficace, étant 2,1 à 5,7 fois plus rapide que le Parallélisme Séquentiel en Anneau et 1,1 à 1,4 fois plus rapide que Megatron-LM dans des configurations textuelles uniques. De plus, il s'intègre parfaitement aux Transformers de Hugging Face. Pour l'entraînement des modèles, nous proposons un pipeline en cinq étapes comprenant l'alignement, l'entraînement préliminaire, l'extension du contexte et le réglage fin supervisé conjoint long-court. En ce qui concerne les jeux de données, nous construisons méticuleusement des jeux de données d'entraînement préliminaire à grande échelle pour la langue visuelle et des jeux de données d'instruction suivie pour vidéos longues afin de soutenir notre processus d'entraînement en plusieurs étapes. La solution complète augmente le nombre de trames réalisables par VILA par un facteur de 128 (de 8 à 1024 trames) et améliore le score de légendage vidéo longue de 2,00 à 3,26 (1,6 fois), atteignant une précision de 99,5% dans des vidéos de 1400 trames (longueur de contexte de 274k). LongVILA-8B montre également une amélioration constante des performances sur les vidéos longues au sein du benchmark VideoMME lorsque le nombre de trames vidéo augmente.