HyperAIHyperAI

Command Palette

Search for a command to run...

VideoCrafter2: Überwindung datenbasierter Einschränkungen für hochwertige Video-Diffusionsmodelle

Haoxin Chen Yong Zhang Xiaodong Cun Menghan Xia Xintao Wang Chao Weng Ying Shan

Zusammenfassung

Die Text-zu-Video-Generierung zielt darauf ab, auf der Grundlage eines gegebenen Prompts ein Video zu erzeugen. In jüngster Zeit konnten mehrere kommerzielle Videomodelle plausible Videos mit geringem Rauschen, hervorragenden Details und hohen ästhetischen Bewertungen generieren. Diese Modelle beruhen jedoch auf großskaligen, sorgfältig gefilterten und hochwertigen Videos, die der wissenschaftlichen Gemeinschaft nicht zugänglich sind. Viele bestehende Forschungsarbeiten, die Modelle mit dem geringqualitativen WebVid-10M-Datensatz trainieren, stoßen bei der Generierung hochwertiger Videos auf Schwierigkeiten, da die Modelle darauf optimiert sind, den WebVid-10M-Datensatz zu reproduzieren. In dieser Arbeit untersuchen wir das Trainingsverfahren von Videomodellen, die von Stable Diffusion abgeleitet sind, und prüfen die Machbarkeit, geringqualitative Videos sowie synthetisierte hochwertige Bilder zu nutzen, um ein hochwertiges Videomodell zu erzielen. Zunächst analysieren wir die Beziehung zwischen den räumlichen und zeitlichen Modulen von Videomodellen und der Verteilungsverschiebung hin zu geringqualitativen Videos. Wir beobachten, dass eine vollständige Anpassung aller Module eine stärkere Kopplung zwischen räumlichen und zeitlichen Modulen hervorruft als eine alleinige Anpassung der zeitlichen Module. Aufgrund dieser stärkeren Kopplung gelingt es uns, die Verteilung hin zu höherer Qualität zu verschieben, ohne Bewegungsqualität zu beeinträchtigen, indem wir die räumlichen Module mit hochwertigen Bildern feinabstimmen. Dadurch entsteht ein generisches hochwertiges Videomodell. Evaluationen zeigen die Überlegenheit des vorgeschlagenen Ansatzes, insbesondere hinsichtlich Bildqualität, Bewegungsflüssigkeit und Konzeptzusammensetzung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VideoCrafter2: Überwindung datenbasierter Einschränkungen für hochwertige Video-Diffusionsmodelle | Paper | HyperAI