Aligner vos latents : synthèse vidéo haute résolution avec des modèles de diffusion latente

Les modèles de diffusion latente (LDM) permettent la génération d’images de haute qualité tout en évitant des exigences computationnelles excessives, en entraînant un modèle de diffusion dans un espace latent de dimension inférieure compressé. Dans ce travail, nous appliquons ce paradigme LDM à la génération vidéo à haute résolution, une tâche particulièrement exigeante en ressources. Nous commençons par pré-entraîner un LDM uniquement sur des images ; ensuite, nous transformons ce générateur d’images en générateur vidéo en introduisant une dimension temporelle dans le modèle de diffusion de l’espace latent, puis en fin-tunant sur des séquences d’images encodées, c’est-à-dire des vidéos. De manière similaire, nous alignons temporellement les modèles de suréchantillonnage du modèle de diffusion, les transformant ainsi en modèles de super-résolution vidéo à cohérence temporelle. Nous nous concentrons sur deux applications réelles pertinentes : la simulation de données de conduite en conditions réelles (in-the-wild) et la création de contenus créatifs via une modélisation texte-à-vidéo. En particulier, nous validons notre modèle Video LDM sur des vidéos réelles de conduite de résolution 512 × 1024, obtenant des performances de pointe. En outre, notre approche permet facilement d’utiliser des LDM pré-entraînés disponibles en libre-service pour les images, puisqu’il suffit alors de former uniquement un modèle d’alignement temporel. En procédant ainsi, nous transformons le modèle texte-à-image de pointe, largement disponible, Stable Diffusion, en un modèle texte-à-vidéo efficace et expressif, capable de générer des vidéos jusqu’à une résolution de 1280 × 2048. Nous démontrons que les couches temporelles entraînées de cette manière se généralisent à différents LDM texte-à-image fin-tunés. En exploitant cette propriété, nous présentons les premiers résultats de génération vidéo personnalisée à partir de texte, ouvrant ainsi des perspectives passionnantes pour l’avenir de la création de contenus. Page du projet : https://research.nvidia.com/labs/toronto-ai/VideoLDM/