HyperAIHyperAI
vor 9 Tagen

Vorhersage von Videos mit VQVAE

Jacob Walker, Ali Razavi, Aäron van den Oord
Vorhersage von Videos mit VQVAE
Abstract

In den letzten Jahren hat die Aufgabe der Videovorhersage – die Vorhersage zukünftiger Videoframes anhand vergangener Frames – in der Forschungsgemeinschaft zunehmend Aufmerksamkeit erlangt. In diesem Paper stellen wir einen neuartigen Ansatz für dieses Problem mit Hilfe von Vector Quantized Variational Autoencoders (VQ-VAE) vor. Mit VQ-VAE komprimieren wir hochauflösende Videos in eine hierarchische Menge mehrskaliger diskreter latenter Variablen. Im Vergleich zu Pixeln weist dieser komprimierte latente Raum eine erheblich reduzierte Dimensionalität auf, wodurch wir skalierbare autoregressive generative Modelle zur Videovorhersage einsetzen können. Im Gegensatz zu vorherigen Arbeiten, die sich weitgehend auf stark eingeschränkte Datensätze konzentrierten, legen wir den Fokus auf sehr vielfältige, großskalige Datensätze wie Kinetics-600. Wir erzielen eine Vorhersage von Videos in höherer Auflösung – 256×256 – auf unbeschränkten Videos, was, soweit uns bekannt ist, eine höhere Auflösung als jede vorherige Methode erreicht. Zudem validieren wir unseren Ansatz gegenüber vorherigen Arbeiten durch eine von Menschen durchgeführte Evaluierung im Rahmen einer Crowdsourcing-Studie.

Vorhersage von Videos mit VQVAE | Neueste Forschungsarbeiten | HyperAI