HyperAIHyperAI

Command Palette

Search for a command to run...

LongVILA : Extension des modèles linguistiques visuels à longue portée pour les vidéos longues

Résumé

La capacité à gérer de longs contextes est essentielle pour les modèles fondamentaux multimodaux. Nous introduisons LongVILA, une solution intégrée (full-stack) dédiée aux modèles vision-langage à long contexte, couvrant l’architecture système, l’entraînement du modèle et le développement de jeux de données. Du côté système, nous proposons le premier système de parallélisme de séquence multimodal (MM-SP), permettant l’entraînement et l’inférence à long contexte, et permettant un entraînement sur 2 millions de tokens avec 256 GPU. MM-SP est également très efficace, étant 2,1 à 5,7 fois plus rapide que le parallélisme de séquence de type anneau (Ring-Style Sequence Parallelism) et 1,1 à 1,4 fois plus rapide que Megatron-LM dans les configurations exclusivement textuelles. De plus, il s’intègre sans heurt avec Hugging Face Transformers. Pour l’entraînement du modèle, nous proposons une pipeline en cinq étapes comprenant l’alignement, l’entraînement préalable, l’extension du contexte, ainsi que le fine-tuning supervisé conjoint long-courte. En ce qui concerne les jeux de données, nous avons soigneusement construit de grands jeux de données pré-entraînés vision-langage ainsi que des jeux de données d’instruction suivie pour vidéos longues, afin de soutenir notre processus d’entraînement en plusieurs étapes. La solution intégrée étend le nombre de cadres supportés par VILA d’un facteur 128 (passant de 8 à 1 024 cadres) et améliore le score de génération de légendes pour vidéos longues de 2,00 à 3,26 (amélioration de 1,6 fois), atteignant une précision de 99,5 % dans une tâche de détection d’aiguille dans une botte de foin sur une vidéo de 1 400 cadres (longueur de contexte de 274 000 tokens). LongVILA-8B montre également une amélioration constante des performances sur les vidéos longues dans le cadre du benchmark VideoMME, au fur et à mesure que le nombre de cadres augmente.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp