Génération de vidéos longues avec VQGAN indépendant du temps et Transformer sensible au temps

Les vidéos sont créées pour exprimer des émotions, échanger des informations et partager des expériences. La synthèse vidéo a longtemps suscité l’intérêt des chercheurs. Malgré les progrès rapides stimulés par les avancées en synthèse visuelle, la plupart des études existantes se concentrent sur l’amélioration de la qualité des images (frames) et des transitions entre elles, tandis que peu de progrès ont été réalisés dans la génération de vidéos longues. Dans cet article, nous proposons une méthode fondée sur 3D-VQGAN et les modèles de transformateurs pour générer des vidéos comptant des milliers de frames. Nos évaluations montrent que notre modèle, entraîné sur des extraits vidéo de 16 frames provenant de benchmarks standards tels que UCF-101, Sky Time-lapse et Taichi-HD, est capable de produire des vidéos longues, diversifiées, cohérentes et de haute qualité. Nous présentons également des extensions conditionnelles de notre approche permettant de générer des vidéos longues significatives en intégrant des informations temporelles issues de textes et d’audio. Les vidéos et le code sont disponibles à l’adresse suivante : https://songweige.github.io/projects/tats/index.html.