Lumos-1 : Sur la Génération Vidéo Autoregressive à Partir d'une Perspective de Modèle Unifié

Les modèles de langage grand et auto-régressif (LLMs) ont unifié une vaste gamme de tâches linguistiques, inspirant des efforts préliminaires en génération vidéo auto-régressive. Les générateurs vidéo auto-régressifs existants divergent soit des architectures standard des LLMs, dépendent d'encodeurs textuels externes volumineux, ou engendrent une latence prohibitivement élevée due au décodage du prochain jeton. Dans cet article, nous présentons Lumos-1, un générateur vidéo auto-régressif qui conserve l'architecture des LLMs avec des modifications architecturales minimales. Pour injecter des corrélations spatio-temporelles dans les LLMs, nous identifions l'efficacité de l'intégration de la 3D RoPE (Positional Encoding Relative) et diagnostiquons ses intervalles de spectre fréquentiel déséquilibrés. Par conséquent, nous proposons MM-RoPE, un schéma RoPE qui préserve le RoPE textuel original tout en fournissant des spectres fréquentiels complets et des positions 3D échelonnées pour modéliser les données spatio-temporelles multimodales. De plus, Lumos-1 adopte une stratégie de dépendance entre les jetons qui respecte la bidirectionnalité intra-image et la causalité temporelle inter-images. Sur la base de cette stratégie de dépendance, nous identifions le problème d'imbalance de perte par image causé par la redondance d'informations spatiales et y remédions en proposant Autoregressive Discrete Diffusion Forcing (AR-DF). AR-DF introduit un masquage temporel tubulaire lors de l'entraînement avec une politique de masquage compatible à l'inférence pour éviter toute dégradation de qualité. En utilisant des techniques d'entraînement efficaces en mémoire, nous pré-entraînons Lumos-1 sur seulement 48 GPU, atteignant des performances comparables à celles d'EMU3 sur GenEval, COSMOS-Video2World sur VBench-I2V et OpenSoraPlan sur VBench-T2V. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/alibaba-damo-academy/Lumos.