HyperAIHyperAI

Command Palette

Search for a command to run...

Lumiere: Ein Raum-Zeit-Diffusionsmodell zur Videogenerierung

Zusammenfassung

Wir stellen Lumiere vor – ein textbasiertes Video-Diffusionsmodell, das darauf ausgelegt ist, Videos mit realistischer, vielfältiger und kohärenter Bewegung zu generieren, was eine zentrale Herausforderung im Bereich der Video-Synthese darstellt. Dazu führen wir eine Space-Time-U-Net-Architektur ein, die die gesamte zeitliche Dauer eines Videos in einem einzigen Durchlauf des Modells erzeugt. Dies unterscheidet sich von bestehenden Video-Modellen, die entfernte Schlüsselbilder synthetisieren und anschließend eine zeitliche Super-Resolution durchführen – ein Ansatz, der die Erreichung globaler zeitlicher Kohärenz inhärent erschwert. Durch die gleichzeitige Anwendung räumlicher sowie (insbesondere) zeitlicher Down- und Upsampling-Operationen und die Nutzung eines vortrainierten textbasierten Bild-Diffusionsmodells lernt unser Modell, direkt ein vollständiges, frame-rate-konformes, niedrigauflösendes Video zu generieren, indem es die Daten auf mehreren räumlich-zeitlichen Skalen verarbeitet. Wir demonstrieren state-of-the-art Ergebnisse bei der textbasierten Video-Generierung und zeigen, dass unsere Architektur nahtlos eine Vielzahl von Inhaltserstellungs- und Video-Editing-Anwendungen ermöglicht, darunter Bild-zu-Video, Video-Inpainting und stilisierte Generierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp