Command Palette
Search for a command to run...
LongVILA : Extension des modèles linguistiques visuels à longue portée pour les vidéos longues
LongVILA : Extension des modèles linguistiques visuels à longue portée pour les vidéos longues
Résumé
La capacité à gérer de longs contextes est essentielle pour les modèles fondamentaux multimodaux. Nous introduisons LongVILA, une solution intégrée (full-stack) dédiée aux modèles vision-langage à long contexte, couvrant l’architecture système, l’entraînement du modèle et le développement de jeux de données. Du côté système, nous proposons le premier système de parallélisme de séquence multimodal (MM-SP), permettant l’entraînement et l’inférence à long contexte, et permettant un entraînement sur 2 millions de tokens avec 256 GPU. MM-SP est également très efficace, étant 2,1 à 5,7 fois plus rapide que le parallélisme de séquence de type anneau (Ring-Style Sequence Parallelism) et 1,1 à 1,4 fois plus rapide que Megatron-LM dans les configurations exclusivement textuelles. De plus, il s’intègre sans heurt avec Hugging Face Transformers. Pour l’entraînement du modèle, nous proposons une pipeline en cinq étapes comprenant l’alignement, l’entraînement préalable, l’extension du contexte, ainsi que le fine-tuning supervisé conjoint long-courte. En ce qui concerne les jeux de données, nous avons soigneusement construit de grands jeux de données pré-entraînés vision-langage ainsi que des jeux de données d’instruction suivie pour vidéos longues, afin de soutenir notre processus d’entraînement en plusieurs étapes. La solution intégrée étend le nombre de cadres supportés par VILA d’un facteur 128 (passant de 8 à 1 024 cadres) et améliore le score de génération de légendes pour vidéos longues de 2,00 à 3,26 (amélioration de 1,6 fois), atteignant une précision de 99,5 % dans une tâche de détection d’aiguille dans une botte de foin sur une vidéo de 1 400 cadres (longueur de contexte de 274 000 tokens). LongVILA-8B montre également une amélioration constante des performances sur les vidéos longues dans le cadre du benchmark VideoMME, au fur et à mesure que le nombre de cadres augmente.