Command Palette
Search for a command to run...
Photorealistische Videogenerierung mit Diffusionsmodellen
Photorealistische Videogenerierung mit Diffusionsmodellen
Agrim Gupta Lijun Yu Kihyuk Sohn Xiuye Gu Meera Hahn Li Fei-Fei Irfan Essa Lu Jiang José Lezama
Zusammenfassung
Wir stellen W.A.L.T. vor, einen auf Transformers basierenden Ansatz zur generativen Erstellung photorealistischer Videos mittels Diffusionsmodellierung. Unser Ansatz beruht auf zwei zentralen Gestaltungsentscheidungen. Erstens verwenden wir einen kausalen Encoder, um Bilder und Videos gemeinsam in einem einheitlichen latente Raum zu komprimieren, was eine gemeinsame Schulung und Generierung über verschiedene Modalitäten hinweg ermöglicht. Zweitens setzen wir zur Verbesserung der Speicher- und Trainingseffizienz eine Fenster-Attention-Architektur ein, die speziell für die gemeinsame räumliche und raumzeitliche generative Modellierung ausgelegt ist. In Kombination ermöglichen diese Gestaltungsentscheidungen, state-of-the-art Ergebnisse auf etablierten Benchmarks für Video- (UCF-101 und Kinetics-600) und Bildgenerierung (ImageNet) zu erzielen, ohne die Verwendung von classifier-free Guidance. Schließlich trainieren wir auch eine Kaskade aus drei Modellen für die Aufgabe der Text-zu-Video-Generierung, bestehend aus einem Basis-latenten Video-Diffusionsmodell sowie zwei Video-Super-Resolution-Diffusionsmodellen, um Videos mit einer Auflösung von 512×896 bei 8 Bildern pro Sekunde zu generieren.