HyperAIHyperAI
vor 7 Tagen

Imagen Video: Hochauflösende Videogenerierung mit Diffusionsmodellen

Jonathan Ho, William Chan, Chitwan Saharia, Jay Whang, Ruiqi Gao, Alexey Gritsenko, Diederik P. Kingma, Ben Poole, Mohammad Norouzi, David J. Fleet, Tim Salimans
Imagen Video: Hochauflösende Videogenerierung mit Diffusionsmodellen
Abstract

Wir stellen Imagen Video vor, ein textbedingtes Video-Generierungssystem, das auf einer Kaskade von Video-Diffusionsmodellen basiert. Gegeben einen Textprompt generiert Imagen Video hochauflösende Videos mithilfe eines Basis-Video-Generierungsmodells sowie einer Folge abwechselnd räumlicher und zeitlicher Super-Resolution-Modelle für Videos. Wir beschreiben, wie wir das System als hochauflösendes Text-zu-Video-Modell skaliert haben, einschließlich wichtiger Entwurfsentscheidungen wie der Wahl vollständig-convolutiver temporaler und räumlicher Super-Resolution-Modelle bei bestimmten Auflösungen sowie der Verwendung der v-Parameterisierung bei Diffusionsmodellen. Zudem bestätigen und übertragen wir Erkenntnisse aus früheren Arbeiten zur Diffusions-basierten Bildgenerierung auf den Bereich der Video-Generierung. Schließlich wenden wir progressive Distillation mit classifier-free Guidance auf unsere Video-Modelle an, um eine schnelle und hochwertige Stichprobenziehung zu ermöglichen. Wir stellen fest, dass Imagen Video nicht nur in der Lage ist, Videos mit hoher Fidelität zu erzeugen, sondern auch über eine hohe Kontrollierbarkeit und Weltkenntnis verfügt – beispielsweise die Fähigkeit, vielfältige Videos und Text-Animationen in unterschiedlichen künstlerischen Stilen sowie mit Verständnis für 3D-Objekte zu generieren. Beispiele finden Sie unter https://imagen.research.google/video/.

Imagen Video: Hochauflösende Videogenerierung mit Diffusionsmodellen | Neueste Forschungsarbeiten | HyperAI