vor 8 Tagen

VideoGPT: Video-Generierung mithilfe von VQ-VAE und Transformers

Wilson Yan, Yunzhi Zhang, Pieter Abbeel, Aravind Srinivas

Abstract

Wir präsentieren VideoGPT: eine konzeptionell einfache Architektur zur Skalierung likelihood-basierter generativer Modelle auf natürliche Videos. VideoGPT nutzt einen VQ-VAE, der durch den Einsatz von 3D-Faltungen und axialer Selbst-Attention abgetastete diskrete latente Darstellungen eines Roh-Videos lernt. Anschließend wird eine einfache GPT-ähnliche Architektur verwendet, um die diskreten Latentvariablen mit Hilfe von raumzeitlichen Positionscodierungen autoregressiv zu modellieren. Trotz der einfachen Formulierung und der geringen Trainingskomplexität ist unsere Architektur in der Lage, Proben zu generieren, die mit den derzeit besten GAN-Modellen für die Videogenerierung auf dem BAIR Robot-Datensatz konkurrieren, sowie hochfidele natürliche Videos aus den Datensätzen UCF-101 und Tumbler GIF Dataset (TGIF) zu erzeugen. Wir hoffen, dass unsere vorgeschlagene Architektur als nachvollziehbarer Referenzpunkt für eine minimalistische Implementierung transformerbasierter Videogenerationsmodelle dient. Beispielvideos und der Quellcode sind unter https://wilson1yan.github.io/videogpt/index.html verfügbar.