HyperAIHyperAI

Command Palette

Search for a command to run...

Latent Video Transformer

Ruslan Rakhimov Denis Volkhonskiy Alexey Artemov Denis Zorin Evgeny Burnaev

Zusammenfassung

Die Aufgabe der Videogenerierung kann als Vorhersage zukünftiger Videoframes basierend auf vorherigen Frames formuliert werden. Moderne generative Modelle für Videos stehen vor der Herausforderung hoher Rechenanforderungen. Einige Modelle erfordern bis zu 512 Tensor Processing Units (TPUs) für eine parallele Trainingsphase. In dieser Arbeit lösen wir dieses Problem durch die Modellierung der Dynamik im latenzraum. Nach der Transformation der Frames in den latenzraum prognostiziert unser Modell die latente Darstellung der nächsten Frames autoregressiv. Wir demonstrieren die Leistungsfähigkeit unseres Ansatzes anhand der Datensätze BAIR Robot Pushing und Kinetics-600. Unser Ansatz ermöglicht eine Reduktion der Anforderungen auf lediglich 8 Grafikprozessoren (GPUs) für das Training der Modelle, wobei die Qualität der Generierung vergleichbar bleibt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Latent Video Transformer | Paper | HyperAI