Un bon générateur d’images est ce dont vous avez besoin pour la synthèse vidéo à haute résolution

La synthèse d’images et de vidéos constitue des domaines étroitement liés, visant à générer du contenu à partir du bruit. Bien que des progrès rapides aient été réalisés dans l’amélioration des modèles d’image pour gérer des résolutions élevées, des rendus de haute qualité et de grandes variations de contenu, obtenir des résultats comparables en synthèse vidéo reste un défi. Nous proposons un cadre qui exploite les générateurs d’images modernes pour produire des vidéos en haute résolution. Nous formulons le problème de la synthèse vidéo comme la découverte d’une trajectoire dans l’espace latent d’un générateur d’images pré-entraîné et fixe. Ce cadre non seulement permet de générer des vidéos en haute résolution, mais est également d’un ordre de grandeur plus efficace sur le plan computationnel. Nous introduisons un générateur de mouvement qui découvre la trajectoire souhaitée, dans laquelle le contenu et le mouvement sont découplés. Grâce à cette représentation, notre cadre permet une large gamme d’applications, notamment la manipulation du contenu et du mouvement. En outre, nous proposons une nouvelle tâche, que nous appelons synthèse vidéo à travers des domaines (cross-domain video synthesis), dans laquelle les générateurs d’images et de mouvement sont entraînés sur des jeux de données disjoints appartenant à des domaines différents. Cette approche permet de générer des objets en mouvement pour lesquels les données vidéo souhaitées ne sont pas disponibles. Des expériences étendues sur divers jeux de données démontrent les avantages de notre méthode par rapport aux techniques existantes de synthèse vidéo. Le code sera mis à disposition à l’adresse suivante : https://github.com/snap-research/MoCoGAN-HD.