HyperAIHyperAI
vor 11 Tagen

VideoCrafter2: Überwindung datenbasierter Einschränkungen für hochwertige Video-Diffusionsmodelle

Haoxin Chen, Yong Zhang, Xiaodong Cun, Menghan Xia, Xintao Wang, Chao Weng, Ying Shan
VideoCrafter2: Überwindung datenbasierter Einschränkungen für hochwertige Video-Diffusionsmodelle
Abstract

Die Text-zu-Video-Generierung zielt darauf ab, auf der Grundlage eines gegebenen Prompts ein Video zu erzeugen. In jüngster Zeit konnten mehrere kommerzielle Videomodelle plausible Videos mit geringem Rauschen, hervorragenden Details und hohen ästhetischen Bewertungen generieren. Diese Modelle beruhen jedoch auf großskaligen, sorgfältig gefilterten und hochwertigen Videos, die der wissenschaftlichen Gemeinschaft nicht zugänglich sind. Viele bestehende Forschungsarbeiten, die Modelle mit dem geringqualitativen WebVid-10M-Datensatz trainieren, stoßen bei der Generierung hochwertiger Videos auf Schwierigkeiten, da die Modelle darauf optimiert sind, den WebVid-10M-Datensatz zu reproduzieren. In dieser Arbeit untersuchen wir das Trainingsverfahren von Videomodellen, die von Stable Diffusion abgeleitet sind, und prüfen die Machbarkeit, geringqualitative Videos sowie synthetisierte hochwertige Bilder zu nutzen, um ein hochwertiges Videomodell zu erzielen. Zunächst analysieren wir die Beziehung zwischen den räumlichen und zeitlichen Modulen von Videomodellen und der Verteilungsverschiebung hin zu geringqualitativen Videos. Wir beobachten, dass eine vollständige Anpassung aller Module eine stärkere Kopplung zwischen räumlichen und zeitlichen Modulen hervorruft als eine alleinige Anpassung der zeitlichen Module. Aufgrund dieser stärkeren Kopplung gelingt es uns, die Verteilung hin zu höherer Qualität zu verschieben, ohne Bewegungsqualität zu beeinträchtigen, indem wir die räumlichen Module mit hochwertigen Bildern feinabstimmen. Dadurch entsteht ein generisches hochwertiges Videomodell. Evaluationen zeigen die Überlegenheit des vorgeschlagenen Ansatzes, insbesondere hinsichtlich Bildqualität, Bewegungsflüssigkeit und Konzeptzusammensetzung.

VideoCrafter2: Überwindung datenbasierter Einschränkungen für hochwertige Video-Diffusionsmodelle | Neueste Forschungsarbeiten | HyperAI