HyperAIHyperAI
vor 16 Tagen

Ein Rezept zur Skalierung der Text-zu-Video-Generierung mit textfreien Videos

Xiang Wang, Shiwei Zhang, Hangjie Yuan, Zhiwu Qing, Biao Gong, Yingya Zhang, Yujun Shen, Changxin Gao, Nong Sang
Ein Rezept zur Skalierung der Text-zu-Video-Generierung mit textfreien Videos
Abstract

Die textbasierte Videoerzeugung auf Basis von Diffusionsmodellen hat im vergangenen Jahr beeindruckende Fortschritte erzielt, bleibt jedoch der textbasierten Bildgenerierung noch hinterher. Ein zentraler Grund hierfür ist die begrenzte Skalierung öffentlich verfügbaren Datensatzes (z. B. 10 Mio. Video-Text-Paare in WebVid10M im Vergleich zu 5 Mrd. Bild-Text-Paaren in LAION), bedingt durch die hohen Kosten der Video-Kommentierung. Stattdessen wäre es weitaus einfacher, unlabeled Clips aus Videoplattformen wie YouTube zu sammeln. Ausgehend von diesem Ansatz entwickeln wir einen neuartigen textbasierten Videoerzeugungsrahmen, der als TF-T2V bezeichnet wird und direkt mit textfreien Videos lernen kann. Die Grundidee beruht darauf, den Prozess der Textdekodierung vom Prozess der zeitlichen Modellierung zu trennen. Dazu nutzen wir einen Inhaltszweig und einen Bewegungszweig, die gemeinsam mit geteilten Gewichten optimiert werden. Gemäß diesem Ansatz untersuchen wir die Auswirkung einer Verdoppelung der Trainingsdatenmenge (d. h. video-only WebVid10M) durch Hinzufügen zufällig gesammelter textfreier Videos und beobachten ermutigend eine Leistungssteigerung (FID von 9,67 auf 8,19 und FVD von 484 auf 441), was die Skalierbarkeit unseres Ansatzes belegt. Zudem stellen wir fest, dass unsere Modellarchitektur nach erneuter Einführung einiger Textlabels im Training eine nachhaltige Leistungsverbesserung erzielt (FID von 8,19 auf 7,64 und FVD von 441 auf 366). Schließlich bestätigen wir die Wirksamkeit und Generalisierbarkeit unserer Idee sowohl im Kontext der nativen textbasierten Videoerzeugung als auch im Paradigma der kompositorischen Video-Synthese. Der Quellcode und die Modelle werden öffentlich unter https://tf-t2v.github.io/ zur Verfügung gestellt.

Ein Rezept zur Skalierung der Text-zu-Video-Generierung mit textfreien Videos | Neueste Forschungsarbeiten | HyperAI