vor 8 Tagen

Lumiere: Ein Raum-Zeit-Diffusionsmodell zur Videogenerierung

Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Guanghui Liu, Amit Raj, Yuanzhen Li, Michael Rubinstein, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri

Details der Forschungsarbeit anzeigen

Lumiere: Ein Raum-Zeit-Diffusionsmodell zur Videogenerierung

Abstract

Wir stellen Lumiere vor – ein textbasiertes Video-Diffusionsmodell, das darauf ausgelegt ist, Videos mit realistischer, vielfältiger und kohärenter Bewegung zu generieren, was eine zentrale Herausforderung im Bereich der Video-Synthese darstellt. Dazu führen wir eine Space-Time-U-Net-Architektur ein, die die gesamte zeitliche Dauer eines Videos in einem einzigen Durchlauf des Modells erzeugt. Dies unterscheidet sich von bestehenden Video-Modellen, die entfernte Schlüsselbilder synthetisieren und anschließend eine zeitliche Super-Resolution durchführen – ein Ansatz, der die Erreichung globaler zeitlicher Kohärenz inhärent erschwert. Durch die gleichzeitige Anwendung räumlicher sowie (insbesondere) zeitlicher Down- und Upsampling-Operationen und die Nutzung eines vortrainierten textbasierten Bild-Diffusionsmodells lernt unser Modell, direkt ein vollständiges, frame-rate-konformes, niedrigauflösendes Video zu generieren, indem es die Daten auf mehreren räumlich-zeitlichen Skalen verarbeitet. Wir demonstrieren state-of-the-art Ergebnisse bei der textbasierten Video-Generierung und zeigen, dass unsere Architektur nahtlos eine Vielzahl von Inhaltserstellungs- und Video-Editing-Anwendungen ermöglicht, darunter Bild-zu-Video, Video-Inpainting und stilisierte Generierung.