Lumière : Un modèle de diffusion espace-temps pour la génération de vidéos

Nous présentons Lumiere, un modèle de diffusion texte-vidéo conçu pour la synthèse de vidéos illustrant des mouvements réalistes, diversifiés et cohérents — un défi fondamental dans le domaine de la génération vidéo. À cette fin, nous introduisons une architecture Space-Time U-Net capable de générer l’intégralité de la durée temporelle d’une vidéo en une seule passe, en un seul passage dans le modèle. Cette approche contraste avec les modèles vidéo existants, qui génèrent d’abord des images-clés éloignées dans le temps, suivies d’une super-résolution temporelle — une méthode qui rend intrinsèquement difficile l’obtention d’une cohérence temporelle globale. En exploitant à la fois un échantillonnage spatial et, de façon cruciale, temporel, à la fois à la baisse et à la hausse, tout en tirant parti d’un modèle pré-entraîné de diffusion texte-image, notre modèle apprend à générer directement une vidéo à plein débit d’images et à faible résolution en traitant le contenu à plusieurs échelles espace-temps. Nous démontrons des résultats de génération texte-vidéo au niveau de l’état de l’art, et montrons que notre architecture facilite aisément une large gamme de tâches de création de contenu et d’applications de modification vidéo, notamment la conversion image-vidéo, le remplissage de vidéo (video inpainting) et la génération stylisée.