Modèles de diffusion vidéo latente pour la génération de vidéos longues à haute fidélité

Les contenus générés par l’intelligence artificielle ont récemment suscité un intérêt considérable, mais la synthèse de vidéos à rendu photo-réaliste reste un défi majeur. Bien que de nombreuses tentatives utilisant des réseaux antagonistes génératifs (GANs) et des modèles autorégressifs aient été entreprises dans ce domaine, la qualité visuelle et la longueur des vidéos générées restent largement insatisfaisantes. Les modèles à diffusion ont récemment montré des résultats remarquables, mais ils nécessitent des ressources computationnelles importantes. Pour y remédier, nous introduisons des modèles de diffusion vidéo légers en exploitant un espace latent 3D à faible dimension, dépassant significativement les modèles précédents basés sur l’espace pixel, notamment sous un budget computationnel restreint. En outre, nous proposons une diffusion hiérarchique dans l’espace latent, permettant ainsi la génération de vidéos plus longues, dépassant mille cadres. Pour surmonter davantage le dégradé de performance observé lors de la génération de vidéos longues, nous introduisons une perturbation latente conditionnelle et une guidance non conditionnelle, qui permettent efficacement de limiter l’accumulation d’erreurs au cours de l’extension de la durée vidéo. Des expérimentations étendues sur des jeux de données de petite taille appartenant à différentes catégories montrent que notre cadre génère des vidéos plus réalistes et plus longues que les meilleures approches antérieures. Nous proposons également une extension vers la génération vidéo à partir de texte à grande échelle, illustrant ainsi l’efficacité de notre méthode. Le code et les modèles seront rendus accessibles au public.