HyperAI
Back to Headlines

Alibaba dévoile Lumos-1 : Un générateur vidéo unifié et efficace grâce à MM-RoPE et AR-DF

il y a 8 jours

Introduction de Lumos-1 : Un Modèle Unifié pour la Génération Autoregressive de Vidéos La génération autoregressive de vidéos est un domaine de recherche qui évolue rapidement. Cette approche vise à créer des vidéos image par image en utilisant des modèles appris qui captures les patterns spatiaux et temporels. Contrairement aux méthodes traditionnelles de création vídeo, souvent basées sur des frames préconstruits ou des transitions manuelles, les modèles autoregressifs génèrent Dynamiquement le contenu en se basant sur des tokens antérieurs. Cette méthode s'inspire des grands modèles linguistiques (LLMs) qui prédits le mot suivant dans une phrase, offrant ainsi une possiblité d'unifier la génération de videos, images et textes sous un même cadre grâce à l'architecture de transformers. Défis et Solutions Proposées Un des principaux défis de la génération de vidéos autoregressive est de capturer avec précision les dépendances spatio-temporelles intrinsèques des vidéos. Les vidéos sont structurées de manière complexe dans les dimensions de temps et d'espace. Encoder cette complexité de manière cohérente pour que les modèles puissent prédire des frames futures est une tâche ardue. Une mauvaise modélisation de ces dépendances entraîne des problèmes de continuité des frames ou la génération de contenu irréaliste. De plus, des techniques d'entraînement traditionnelles comme le masquage aléatoire échouent souvent à fournir des signaux d'apprentissage équilibrés entre les frames, ce qui peut conduire à des fuites d'information spatiale et rendre la prédiction trop facile. Plusieurs méthodes ont été proposées pour répondre à ce défi, mais elles divergent souvent de la structure standard des grands modèles linguistiques. Certains font appel à des encodeurs textuels pré-entraînés, augmentant ainsi la complexité du modèle et réduisant sa cohérence. D'autres, à travers un décryptage inefficace, introduisent une latence significative durant la génération. Par exemple, Phenaki et EMU3 soutiennent la génération de bout en bout, mais peinent à maintenir une performance constante et présentent des coûts d'entraînement élevés. De même, des techniques comme l'ordre de balayage raster ou l'attention globale séquentielle ne se prêtent pas bien à des données vidéo de haute dimension. Présentation de Lumos-1 Une équipe de recherche de DAMO Academy d'Alibaba Group, Hupan Lab et Zhejiang University a introduit Lumos-1, un modèle unifié pour la génération autoregressive de vidéos qui reste fidèle à l'architecture des grands modèles linguistiques. Lumos-1 supprime la nécessité d'encodeurs externes et modifie peu la conception originale des LLMs. Le modèle utilise des Multi-Modal Rotary Position Embeddings (MM-RoPE) pour modéliser la structure tridimensionnelle des vidéos et une approche de dépendance de tokens pour préserver la bidirectionalité intra-frame et la causalité temporelle inter-frame, ce qui correspond mieux à la nature des données vidéo. Techniques Utilisées : MM-RoPE et AR-DF Dans MM-RoPE, les chercheurs ont étendu les méthodes RoPE existantes pour équilibrer le spectre de fréquences entre les dimensions spatiales et temporelles. Les méthodes RoPE classiques en 3D attribuent mal les fréquences, entraînant des pertes de détails ou des encodages positionnels ambigus. MM-RoPE restructuring les allocations de fréquences afin que chaque dimension — temporelle, hauteur et largeur — reçoive une représentation équilibrée. Pour résoudre les imprécisions d'apprentissage lors de l'entraînement par frames, Lumos-1 introduit l'Autoregressive Discrete Diffusion Forcing (AR-DF). Cette technique utilise un masquage temporel de tubes pendant l'entraînement, de sorte que le modèle ne dépend pas trop des informations non masquées spatiales. Cela garantit un apprentissage équilibré tout au long de la séquence vidéo. La stratégie d'inférence suit le même principe que l’entraînement, permettant une génération de qualité elevated sans dégradation. Performances et Efficacité Lumos-1 a été entraîné de zéro sur 60 millions d'images et 10 millions de vidéos, utilisant seulement 48 GPUs. Ce processus, considéré efficient en terme de mémoire, a permis de réaliser des performances comparables aux meilleurs modèles actuels du domaine. Lumos-1 a atteint des résultats similaires à ceux d'EMU3 sur les benchmarks GenEval, à ceux de COSMOS-Video2World sur le test VBench-I2V, et rivalise également avec les sorties d'OpenSoraPlan sur le benchmark VBench-T2V. Ces performances démontrent que l'entraînement léger de Lumos-1 ne compromet pas sa compétitivité. De plus, le modèle supporte la génération de vidéo à partir de texte, d'image à vidéo et de texte à image, témoignant d'une robuste généralisation cross-modalités. Impact et Perspectives Futures Cette recherche ne seulement identifie et répond aux principaux défis de la modélisation spatio-temporelle pour la génération de vidéos, mais elle montre également comment Lumos-1 fixe de nouveaux standards pour fusionner efficacité et performance dans les cadres autoregressifs. En réussissant à marier des architectures avancées avec une formation innovante, Lumos-1 crée une voie pour la prochaine génération de modèles de génération de vidéos scalables et de haute qualité, ouvrant des perspectives de recherches multimodales. Évaluations et Profil de l'Entreprise Les professionnels de l'industrie considèrent que Lumos-1 pourrait marquer un tournant majeur dans la génération de contenu vidéo génératif. Avec son architecture simplifiée et son efficacité accrue, il offre une alternative prometteuse aux modèles plus complexes et coûteux. DAMO Academy, connu pour ses contributions significatives en intelligence artificielle, collabore avec Hupan Lab et Zhejiang University pour pousser les limites de la technologie. Ensemble, ils visent à réduire les barrières techniques de la génération autoregressive de vidéos tout en améliorant la qualité des résultats. Lumos-1 illustre parfaitement la capacité d'Alibaba Group à mener des recherches de pointe, combinant ingéniosité technique et ressources industrielles pour créer des solutions innovantes dans le domaine de l'IA. Cette avancée est susceptible de influencer fortement les futures recherches en générativité et en traitement multimodal des données, promettant une diversité et une créativité accrues dans les applications de l'IA.

Related Links