HyperAIHyperAI
vor 16 Tagen

Align your Latents: Hochauflösende Video-Synthese mit Latent-Diffusions-Modellen

Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis
Align your Latents: Hochauflösende Video-Synthese mit Latent-Diffusions-Modellen
Abstract

Latent Diffusion Models (LDMs) ermöglichen die Erzeugung hochwertiger Bilder, ohne dabei übermäßige Rechenressourcen zu erfordern, da ein Diffusionsmodell in einem komprimierten, niedrigdimensionalen Latenzraum trainiert wird. In diesem Beitrag übertragen wir das LDM-Paradigma auf die Generierung von Videosequenzen mit hoher Auflösung, einer besonders ressourcenintensiven Aufgabe. Zunächst prätrainieren wir ein LDM ausschließlich an Bildern; anschließend wandeln wir den Bildgenerator durch Einführung einer zeitlichen Dimension im Latenzraum-Diffusionsmodell in einen Videogenerator um und feinjustieren das Modell an kodierten Bildsequenzen, also Videos. Ebenso richten wir die Upsampler des Diffusionsmodells zeitlich aus, wodurch sie zu zeitlich konsistenten Modellen für die Video-Superresolution werden. Wir konzentrieren uns auf zwei relevante Anwendungen in der Praxis: die Simulation von in-the-wild-Fahrdaten und die kreative Inhaltsgenerierung mittels Text-zu-Video-Modellierung. Insbesondere validieren wir unser Video-LDM an realen Fahrvideo-Daten mit einer Auflösung von 512 × 1024 und erreichen dabei einen Stand der Technik. Darüber hinaus kann unsere Methode problemlos bereits vorhandene, kommerziell verfügbare prätrainierte Bild-LDMs nutzen, da in diesem Fall lediglich ein zeitlicher Alignierungsmodell trainiert werden muss. Auf diese Weise wandeln wir die öffentlich verfügbare, state-of-the-art-Text-zu-Bild-LDM Stable Diffusion in ein effizientes und ausdrucksstarkes Text-zu-Video-Modell mit Auflösungen bis zu 1280 × 2048 um. Wir zeigen, dass die so trainierten zeitlichen Schichten auf verschiedene feinjustierte Text-zu-Bild-LDMs generalisieren. Unter Ausnutzung dieser Eigenschaft präsentieren wir erstmals Ergebnisse zur personalisierten Text-zu-Video-Generierung, was neue und vielversprechende Wege für zukünftige Inhaltscreation eröffnet. Projektseite: https://research.nvidia.com/labs/toronto-ai/VideoLDM/

Align your Latents: Hochauflösende Video-Synthese mit Latent-Diffusions-Modellen | Neueste Forschungsarbeiten | HyperAI