VideoFusion : Modèles de diffusion décomposés pour la génération de vidéos de haute qualité

Un modèle probabiliste de diffusion (DPM), qui construit un processus de diffusion direct en ajoutant progressivement du bruit aux points de données et apprend un processus inverse de débruitage pour générer de nouveaux échantillons, a démontré sa capacité à traiter des distributions de données complexes. Malgré ses récents succès dans la synthèse d’images, son application à la génération vidéo reste difficile en raison de l’high-dimensionnalité des espaces de données. Les méthodes précédentes adoptent généralement un processus de diffusion standard, où les cadres d’un même clip vidéo sont altérés par des bruits indépendants, ignorant ainsi la redondance sémantique et les corrélations temporelles présentes dans les vidéos. Ce travail propose un processus de diffusion décomposé, en décomposant le bruit par cadre en un bruit de base partagé entre tous les cadres et un bruit résiduel variant selon l’axe temporel. Le pipeline de débruitage utilise deux réseaux appris conjointement pour correspondre à cette décomposition de bruit. Des expériences sur divers jeux de données confirment que notre approche, baptisée VideoFusion, surpasser les alternatives basées sur les GAN ainsi que celles fondées sur la diffusion pour la génération de vidéos de haute qualité. Nous montrons également que notre formulation décomposée peut tirer parti de modèles pré-entraînés de diffusion d’images et permet efficacement la création vidéo conditionnée par le texte.