vor 6 Monaten

Xiang Wang Shiwei Zhang Hangjie Yuan Zhiwu Qing Biao Gong Yingya Zhang Yujun Shen Changxin Gao Nong Sang

Zusammenfassung

Die textbasierte Videoerzeugung auf Basis von Diffusionsmodellen hat im vergangenen Jahr beeindruckende Fortschritte erzielt, bleibt jedoch der textbasierten Bildgenerierung noch hinterher. Ein zentraler Grund hierfür ist die begrenzte Skalierung öffentlich verfügbaren Datensatzes (z. B. 10 Mio. Video-Text-Paare in WebVid10M im Vergleich zu 5 Mrd. Bild-Text-Paaren in LAION), bedingt durch die hohen Kosten der Video-Kommentierung. Stattdessen wäre es weitaus einfacher, unlabeled Clips aus Videoplattformen wie YouTube zu sammeln. Ausgehend von diesem Ansatz entwickeln wir einen neuartigen textbasierten Videoerzeugungsrahmen, der als TF-T2V bezeichnet wird und direkt mit textfreien Videos lernen kann. Die Grundidee beruht darauf, den Prozess der Textdekodierung vom Prozess der zeitlichen Modellierung zu trennen. Dazu nutzen wir einen Inhaltszweig und einen Bewegungszweig, die gemeinsam mit geteilten Gewichten optimiert werden. Gemäß diesem Ansatz untersuchen wir die Auswirkung einer Verdoppelung der Trainingsdatenmenge (d. h. video-only WebVid10M) durch Hinzufügen zufällig gesammelter textfreier Videos und beobachten ermutigend eine Leistungssteigerung (FID von 9,67 auf 8,19 und FVD von 484 auf 441), was die Skalierbarkeit unseres Ansatzes belegt. Zudem stellen wir fest, dass unsere Modellarchitektur nach erneuter Einführung einiger Textlabels im Training eine nachhaltige Leistungsverbesserung erzielt (FID von 8,19 auf 7,64 und FVD von 441 auf 366). Schließlich bestätigen wir die Wirksamkeit und Generalisierbarkeit unserer Idee sowohl im Kontext der nativen textbasierten Videoerzeugung als auch im Paradigma der kompositorischen Video-Synthese. Der Quellcode und die Modelle werden öffentlich unter https://tf-t2v.github.io/ zur Verfügung gestellt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Xiang Wang Shiwei Zhang Hangjie Yuan Zhiwu Qing Biao Gong Yingya Zhang Yujun Shen Changxin Gao Nong Sang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Xiang Wang Shiwei Zhang Hangjie Yuan Zhiwu Qing Biao Gong Yingya Zhang Yujun Shen Changxin Gao Nong Sang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Ein Rezept zur Skalierung der Text-zu-Video-Generierung mit textfreien Videos

Xiang Wang Shiwei Zhang Hangjie Yuan Zhiwu Qing Biao Gong Yingya Zhang Yujun Shen Changxin Gao Nong Sang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein Rezept zur Skalierung der Text-zu-Video-Generierung mit textfreien Videos

Xiang Wang Shiwei Zhang Hangjie Yuan Zhiwu Qing Biao Gong Yingya Zhang Yujun Shen Changxin Gao Nong Sang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein Rezept zur Skalierung der Text-zu-Video-Generierung mit textfreien Videos

Xiang Wang Shiwei Zhang Hangjie Yuan Zhiwu Qing Biao Gong Yingya Zhang Yujun Shen Changxin Gao Nong Sang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters