HyperAIHyperAI

Command Palette

Search for a command to run...

VideoGPT: Video-Generierung mithilfe von VQ-VAE und Transformers

Wilson Yan Yunzhi Zhang Pieter Abbeel Aravind Srinivas

Zusammenfassung

Wir präsentieren VideoGPT: eine konzeptionell einfache Architektur zur Skalierung likelihood-basierter generativer Modelle auf natürliche Videos. VideoGPT nutzt einen VQ-VAE, der durch den Einsatz von 3D-Faltungen und axialer Selbst-Attention abgetastete diskrete latente Darstellungen eines Roh-Videos lernt. Anschließend wird eine einfache GPT-ähnliche Architektur verwendet, um die diskreten Latentvariablen mit Hilfe von raumzeitlichen Positionscodierungen autoregressiv zu modellieren. Trotz der einfachen Formulierung und der geringen Trainingskomplexität ist unsere Architektur in der Lage, Proben zu generieren, die mit den derzeit besten GAN-Modellen für die Videogenerierung auf dem BAIR Robot-Datensatz konkurrieren, sowie hochfidele natürliche Videos aus den Datensätzen UCF-101 und Tumbler GIF Dataset (TGIF) zu erzeugen. Wir hoffen, dass unsere vorgeschlagene Architektur als nachvollziehbarer Referenzpunkt für eine minimalistische Implementierung transformerbasierter Videogenerationsmodelle dient. Beispielvideos und der Quellcode sind unter https://wilson1yan.github.io/videogpt/index.html verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VideoGPT: Video-Generierung mithilfe von VQ-VAE und Transformers | Paper | HyperAI