HyperAIHyperAI

Command Palette

Search for a command to run...

MAGVIT: Masked Generative Video Transformer

Zusammenfassung

Wir stellen den MAsked Generative VIdeo Transformer, MAGVIT, vor, um verschiedene Aufgaben der Videogenerierung mit einem einzigen Modell zu bewältigen. Wir führen einen 3D-Tokenizer ein, um Videos in räumlich-zeitliche visuelle Tokens zu quantisieren, und schlagen eine Embedding-Methode für maskierte Video-Tokens vor, um das Mehraufgaben-Lernen zu fördern. Um die Qualität, Effizienz und Flexibilität von MAGVIT zu demonstrieren, führen wir umfangreiche Experimente durch. Unsere Ergebnisse zeigen, dass (i) MAGVIT gegenüber aktuellen State-of-the-Art-Ansätzen gut abschneidet und die bisher besten veröffentlichten FVD-Werte auf drei Videogenerierungsbenchmarks erzielt, darunter die anspruchsvolle Kinetics-600. (ii) MAGVIT besticht gegenüber bestehenden Methoden in der Inferenzzeit um zwei Größenordnungen gegenüber Diffusionsmodellen und um den Faktor 60 gegenüber autoregressiven Modellen. (iii) Ein einzelnes MAGVIT-Modell unterstützt zehn unterschiedliche Generierungsaufgaben und zeigt eine gute Generalisierungsfähigkeit über Videos verschiedener visueller Domänen hinweg. Der Quellcode und die trainierten Modelle werden öffentlich unter https://magvit.cs.cmu.edu bereitgestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp