HyperAIHyperAI
vor 11 Tagen

VideoCrafter1: Offene Diffusionsmodelle für die Generierung hochwertiger Videos

Haoxin Chen, Menghan Xia, Yingqing He, Yong Zhang, Xiaodong Cun, Shaoshu Yang, Jinbo Xing, Yaofang Liu, Qifeng Chen, Xintao Wang, Chao Weng, Ying Shan
VideoCrafter1: Offene Diffusionsmodelle für die Generierung hochwertiger Videos
Abstract

Die Generierung von Videos hat sowohl in der akademischen Forschung als auch in der Industrie zunehmend an Bedeutung gewonnen. Obwohl kommerzielle Tools ansprechende Videos erzeugen können, gibt es bisher nur eine begrenzte Anzahl an quelloffenen Modellen für Forscher und Ingenieure. In dieser Arbeit stellen wir zwei Diffusionsmodelle für die Erzeugung hochwertiger Videos vor, nämlich Text-zu-Video-(T2V-) und Bild-zu-Video-(I2V-)Modelle. T2V-Modelle synthetisieren ein Video basierend auf einer gegebenen Texteingabe, während I2V-Modelle zusätzlich eine Bildeingabe berücksichtigen. Unser vorgestelltes T2V-Modell kann realistische und filmreife Videos mit einer Auflösung von $1024 \times 576$ erzeugen und übertrifft andere quelloffene T2V-Modelle hinsichtlich der Qualität. Das I2V-Modell ist darauf ausgelegt, Videos zu generieren, die den Inhalt des bereitgestellten Referenzbildes strikt beibehalten und dabei Inhalt, Struktur und Stil erhalten. Dieses Modell ist das erste quelloffene I2V-Grundmodell, das in der Lage ist, ein gegebenes Bild in einen Videoausschnitt zu transformieren, während gleichzeitig die Anforderungen an die Inhaltsbewahrung erfüllt werden. Wir sind überzeugt, dass diese quelloffenen Modelle zur Generierung von Videos einen wesentlichen Beitrag zu den technologischen Fortschritten in der Gemeinschaft leisten werden.

VideoCrafter1: Offene Diffusionsmodelle für die Generierung hochwertiger Videos | Neueste Forschungsarbeiten | HyperAI