HyperAIHyperAI
il y a 7 jours

MCVD : Diffusion vidéo conditionnelle masquée pour la prédiction, la génération et l'interpolation

Vikram Voleti, Alexia Jolicoeur-Martineau, Christopher Pal
MCVD : Diffusion vidéo conditionnelle masquée pour la prédiction, la génération et l'interpolation
Résumé

La prédiction vidéo constitue une tâche difficile. La qualité des trames générées par les modèles génératifs les plus avancés actuels tend à être médiocre, et la généralisation au-delà des données d'entraînement s'avère problématique. De plus, les cadres de prédiction existants sont généralement incapables de traiter simultanément d'autres tâches liées aux vidéos, telles que la génération sans condition ou l'interpolation. Dans ce travail, nous proposons un cadre généraliste appelé Masked Conditional Video Diffusion (MCVD), dédié à toutes ces tâches de synthèse vidéo, fondé sur un modèle probabiliste basé sur le score et débruitant par diffusion conditionnelle, conditionné sur des trames passées et/ou futures. Nous entraînons le modèle de manière à masquer aléatoirement et indépendamment toutes les trames passées ou toutes les trames futures. Cette configuration novatrice mais simple permet d'entraîner un seul modèle capable d'exécuter une large gamme de tâches vidéo, notamment : la prédiction du futur ou du passé — lorsque seules les trames futures ou passées sont masquées ; la génération sans condition — lorsque les trames passées et futures sont toutes deux masquées ; et l'interpolation — lorsque ni les trames passées ni les trames futures ne sont masquées. Nos expériences montrent que cette approche permet de générer des trames de haute qualité pour divers types de vidéos. Nos modèles MCVD reposent sur des architectures simples et non récurrentes basées sur des convolutions 2D, conditionnées sur des blocs de trames et générant des blocs de trames. Nous générons des vidéos de longueur arbitraire de manière autoregressive, par blocs. Notre méthode atteint des résultats SOTA sur des benchmarks standards de prédiction vidéo et d'interpolation, avec des temps de calcul pour l'entraînement compris entre 1 et 12 jours, utilisant au plus 4 GPU. Page du projet : https://mask-cond-video-diffusion.github.io ; Code source : https://github.com/voletiv/mcvd-pytorch

MCVD : Diffusion vidéo conditionnelle masquée pour la prédiction, la génération et l'interpolation | Articles de recherche récents | HyperAI