HyperAIHyperAI
vor 7 Tagen

MAGVIT: Masked Generative Video Transformer

Lijun Yu, Yong Cheng, Kihyuk Sohn, José Lezama, Han Zhang, Huiwen Chang, Alexander G. Hauptmann, Ming-Hsuan Yang, Yuan Hao, Irfan Essa, Lu Jiang
MAGVIT: Masked Generative Video Transformer
Abstract

Wir stellen den MAsked Generative VIdeo Transformer, MAGVIT, vor, um verschiedene Aufgaben der Videogenerierung mit einem einzigen Modell zu bewältigen. Wir führen einen 3D-Tokenizer ein, um Videos in räumlich-zeitliche visuelle Tokens zu quantisieren, und schlagen eine Embedding-Methode für maskierte Video-Tokens vor, um das Mehraufgaben-Lernen zu fördern. Um die Qualität, Effizienz und Flexibilität von MAGVIT zu demonstrieren, führen wir umfangreiche Experimente durch. Unsere Ergebnisse zeigen, dass (i) MAGVIT gegenüber aktuellen State-of-the-Art-Ansätzen gut abschneidet und die bisher besten veröffentlichten FVD-Werte auf drei Videogenerierungsbenchmarks erzielt, darunter die anspruchsvolle Kinetics-600. (ii) MAGVIT besticht gegenüber bestehenden Methoden in der Inferenzzeit um zwei Größenordnungen gegenüber Diffusionsmodellen und um den Faktor 60 gegenüber autoregressiven Modellen. (iii) Ein einzelnes MAGVIT-Modell unterstützt zehn unterschiedliche Generierungsaufgaben und zeigt eine gute Generalisierungsfähigkeit über Videos verschiedener visueller Domänen hinweg. Der Quellcode und die trainierten Modelle werden öffentlich unter https://magvit.cs.cmu.edu bereitgestellt.

MAGVIT: Masked Generative Video Transformer | Neueste Forschungsarbeiten | HyperAI