Latent Video Transformer

Die Aufgabe der Videogenerierung kann als Vorhersage zukünftiger Videoframes basierend auf vorherigen Frames formuliert werden. Moderne generative Modelle für Videos stehen vor der Herausforderung hoher Rechenanforderungen. Einige Modelle erfordern bis zu 512 Tensor Processing Units (TPUs) für eine parallele Trainingsphase. In dieser Arbeit lösen wir dieses Problem durch die Modellierung der Dynamik im latenzraum. Nach der Transformation der Frames in den latenzraum prognostiziert unser Modell die latente Darstellung der nächsten Frames autoregressiv. Wir demonstrieren die Leistungsfähigkeit unseres Ansatzes anhand der Datensätze BAIR Robot Pushing und Kinetics-600. Unser Ansatz ermöglicht eine Reduktion der Anforderungen auf lediglich 8 Grafikprozessoren (GPUs) für das Training der Modelle, wobei die Qualität der Generierung vergleichbar bleibt.