HyperAIHyperAI

Command Palette

Search for a command to run...

LAVIE: Hochwertige Videoerzeugung mit kaskadierten latente Diffusionsmodellen

Zusammenfassung

Diese Arbeit zielt darauf ab, ein hochwertiges Text-zu-Video-(T2V)-Generativmodell zu erlernen, indem ein vortrainiertes Text-zu-Bild-(T2I)-Modell als Grundlage genutzt wird. Es handelt sich um eine äußerst wünschenswerte, jedoch herausfordernde Aufgabe, gleichzeitig a) die Synthese von visuell realistischen und zeitlich kohärenten Videos zu ermöglichen und b) die starke kreative Generierungsfähigkeit des vortrainierten T2I-Modells beizubehalten. Dazu schlagen wir LaVie vor – einen integrierten Video-Generierungs-Framework, der auf einer Kaskade von Video-Latent-Diffusionsmodellen basiert und ein Basis-T2V-Modell, ein zeitliches Interpolationsmodell sowie ein Video-Super-Resolution-Modell umfasst. Unsere zentralen Erkenntnisse sind zweifach: 1) Wir zeigen, dass die Integration einfacher zeitlicher Selbst-Attention-Module, kombiniert mit Rotations-Positionseinkodierung, ausreichend ist, um die inhärenten zeitlichen Korrelationen in Videodaten adäquat zu erfassen. 2) Zudem bestätigen wir, dass der Prozess der gemeinsamen Feinabstimmung von Bild- und Video-Daten eine entscheidende Rolle bei der Erzeugung hochwertiger und kreativer Ergebnisse spielt. Um die Leistungsfähigkeit von LaVie zu verbessern, stellen wir eine umfassende und vielfältige Video-Datenbank namens Vimeo25M vor, die aus 25 Millionen Text-Videopaaren besteht und dabei Qualität, Vielfalt und ästhetische Attraktivität priorisiert. Umfangreiche Experimente zeigen, dass LaVie sowohl quantitativ als auch qualitativ Spitzenleistungen erzielt. Darüber hinaus demonstrieren wir die Vielseitigkeit vortrainierter LaVie-Modelle in verschiedenen Anwendungen zur Generierung langer Videos sowie zur personalisierten Video-Synthese.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp