Modèles de diffusion vidéo

La génération de vidéos à haute fidélité et cohérence temporelle est une étape importante dans la recherche sur les modèles génératifs. Nous faisons des progrès vers cet objectif en proposant un modèle de diffusion pour la génération vidéo qui montre des résultats très prometteurs initiaux. Notre modèle constitue une extension naturelle de l'architecture de diffusion standard pour les images, et il permet une formation conjointe à partir de données d'images et de vidéos, ce que nous trouvons réduire la variance des gradients de mini-lot et accélérer l'optimisation. Pour générer des vidéos plus longues et à plus haute résolution, nous introduisons une nouvelle technique d'échantillonnage conditionnel pour l'extension spatiale et temporelle des vidéos, qui se révèle supérieure aux méthodes précédemment proposées. Nous présentons les premiers résultats sur une tâche de génération vidéo conditionnée au texte à grande échelle, ainsi que des résultats d'état de l'art sur des benchmarks établis pour la prédiction vidéo et la génération vidéo inconditionnelle. Des documents supplémentaires sont disponibles à l'adresse suivante : https://video-diffusion.github.io/