LAVIE: Hochwertige Videoerzeugung mit kaskadierten latente Diffusionsmodellen

Diese Arbeit zielt darauf ab, ein hochwertiges Text-zu-Video-(T2V)-Generativmodell zu erlernen, indem ein vortrainiertes Text-zu-Bild-(T2I)-Modell als Grundlage genutzt wird. Es handelt sich um eine äußerst wünschenswerte, jedoch herausfordernde Aufgabe, gleichzeitig a) die Synthese von visuell realistischen und zeitlich kohärenten Videos zu ermöglichen und b) die starke kreative Generierungsfähigkeit des vortrainierten T2I-Modells beizubehalten. Dazu schlagen wir LaVie vor – einen integrierten Video-Generierungs-Framework, der auf einer Kaskade von Video-Latent-Diffusionsmodellen basiert und ein Basis-T2V-Modell, ein zeitliches Interpolationsmodell sowie ein Video-Super-Resolution-Modell umfasst. Unsere zentralen Erkenntnisse sind zweifach: 1) Wir zeigen, dass die Integration einfacher zeitlicher Selbst-Attention-Module, kombiniert mit Rotations-Positionseinkodierung, ausreichend ist, um die inhärenten zeitlichen Korrelationen in Videodaten adäquat zu erfassen. 2) Zudem bestätigen wir, dass der Prozess der gemeinsamen Feinabstimmung von Bild- und Video-Daten eine entscheidende Rolle bei der Erzeugung hochwertiger und kreativer Ergebnisse spielt. Um die Leistungsfähigkeit von LaVie zu verbessern, stellen wir eine umfassende und vielfältige Video-Datenbank namens Vimeo25M vor, die aus 25 Millionen Text-Videopaaren besteht und dabei Qualität, Vielfalt und ästhetische Attraktivität priorisiert. Umfangreiche Experimente zeigen, dass LaVie sowohl quantitativ als auch qualitativ Spitzenleistungen erzielt. Darüber hinaus demonstrieren wir die Vielseitigkeit vortrainierter LaVie-Modelle in verschiedenen Anwendungen zur Generierung langer Videos sowie zur personalisierten Video-Synthese.