Lumiere: Ein Raum-Zeit-Diffusionsmodell zur Videogenerierung

Wir stellen Lumiere vor – ein textbasiertes Video-Diffusionsmodell, das darauf ausgelegt ist, Videos mit realistischer, vielfältiger und kohärenter Bewegung zu generieren, was eine zentrale Herausforderung im Bereich der Video-Synthese darstellt. Dazu führen wir eine Space-Time-U-Net-Architektur ein, die die gesamte zeitliche Dauer eines Videos in einem einzigen Durchlauf des Modells erzeugt. Dies unterscheidet sich von bestehenden Video-Modellen, die entfernte Schlüsselbilder synthetisieren und anschließend eine zeitliche Super-Resolution durchführen – ein Ansatz, der die Erreichung globaler zeitlicher Kohärenz inhärent erschwert. Durch die gleichzeitige Anwendung räumlicher sowie (insbesondere) zeitlicher Down- und Upsampling-Operationen und die Nutzung eines vortrainierten textbasierten Bild-Diffusionsmodells lernt unser Modell, direkt ein vollständiges, frame-rate-konformes, niedrigauflösendes Video zu generieren, indem es die Daten auf mehreren räumlich-zeitlichen Skalen verarbeitet. Wir demonstrieren state-of-the-art Ergebnisse bei der textbasierten Video-Generierung und zeigen, dass unsere Architektur nahtlos eine Vielzahl von Inhaltserstellungs- und Video-Editing-Anwendungen ermöglicht, darunter Bild-zu-Video, Video-Inpainting und stilisierte Generierung.