Command Palette
Search for a command to run...
LongLive : Génération en temps réel d'images vidéo longues interactives

Résumé
Nous présentons LongLive, un cadre autoregressif (AR) au niveau des trames pour la génération de vidéos longues en temps réel et interactive. La génération de vidéos longues soulève des défis à la fois en termes d'efficacité et de qualité. Les modèles de diffusion et les modèles de diffusion-forcing permettent de produire des vidéos de haute qualité, mais leur efficacité est faible en raison de l'attention bidirectionnelle. Les modèles AR à attention causale permettent quant à eux un accélération de l'inférence grâce au cache des valeurs clés (KV caching), mais leur qualité dégrade souvent sur les vidéos longues en raison des contraintes mémoire lors de l'entraînement sur de longues séquences. En outre, au-delà de la génération statique basée sur des prompts, des fonctionnalités interactives — telles que l'entrée en continu de prompts — sont essentielles pour la création dynamique de contenus, permettant aux utilisateurs de guider les narrations en temps réel. Cette exigence d'interaction augmente considérablement la complexité, notamment en ce qui concerne la cohérence visuelle et la cohérence sémantique lors des transitions entre prompts. Pour relever ces défis, LongLive adopte une architecture autoregressive causale au niveau des trames, intégrant un mécanisme de re-caching des états KV qui actualise les états mis en cache à partir de nouveaux prompts pour assurer des transitions fluides et cohérentes ; une stratégie d'entraînement en longue séquence (streaming long tuning) permettant l'entraînement sur des vidéos longues et alignant ainsi l'entraînement et l'inférence (train-long-test-long) ; ainsi qu'une attention à fenêtre courte couplée à un « sink » d'attention au niveau des trames (appelé « frame sink »), qui préserve la cohérence à longue portée tout en accélérant la génération. Grâce à ces innovations clés, LongLive fine-tune un modèle de courte durée de 1,3 milliard de paramètres pour générer des vidéos de plusieurs minutes en seulement 32 jours de calcul sur GPU. En inférence, LongLive maintient une fréquence de 20,7 FPS sur une seule GPU NVIDIA H100, et obtient de solides performances sur VBench, tant pour les vidéos courtes que pour les vidéos longues. LongLive supporte des vidéos jusqu'à 240 secondes sur une seule GPU H100, et permet également l'inférence quantifiée en INT8 avec une perte de qualité négligeable.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.