Photorealistische Videogenerierung mit Diffusionsmodellen

Wir stellen W.A.L.T. vor, einen auf Transformers basierenden Ansatz zur generativen Erstellung photorealistischer Videos mittels Diffusionsmodellierung. Unser Ansatz beruht auf zwei zentralen Gestaltungsentscheidungen. Erstens verwenden wir einen kausalen Encoder, um Bilder und Videos gemeinsam in einem einheitlichen latente Raum zu komprimieren, was eine gemeinsame Schulung und Generierung über verschiedene Modalitäten hinweg ermöglicht. Zweitens setzen wir zur Verbesserung der Speicher- und Trainingseffizienz eine Fenster-Attention-Architektur ein, die speziell für die gemeinsame räumliche und raumzeitliche generative Modellierung ausgelegt ist. In Kombination ermöglichen diese Gestaltungsentscheidungen, state-of-the-art Ergebnisse auf etablierten Benchmarks für Video- (UCF-101 und Kinetics-600) und Bildgenerierung (ImageNet) zu erzielen, ohne die Verwendung von classifier-free Guidance. Schließlich trainieren wir auch eine Kaskade aus drei Modellen für die Aufgabe der Text-zu-Video-Generierung, bestehend aus einem Basis-latenten Video-Diffusionsmodell sowie zwei Video-Super-Resolution-Diffusionsmodellen, um Videos mit einer Auflösung von $512 \times 896$ bei 8 Bildern pro Sekunde zu generieren.