HyperAIHyperAI

Command Palette

Search for a command to run...

ModelScope Text-to-Video Technischer Bericht

Jiuniu Wang Hangjie Yuan Dayou Chen Yingya Zhang Xiang Wang Shiwei Zhang

Zusammenfassung

Diese Arbeit stellt ModelScopeT2V vor, ein Text-zu-Video-Synthese-Modell, das sich aus einem Text-zu-Bild-Synthese-Modell (nämlich Stable Diffusion) entwickelt hat. ModelScopeT2V integriert räumlich-zeitliche Blöcke, um eine konsistente Bildgenerierung und reibungslose Bewegungstransitionen sicherzustellen. Das Modell kann während des Trainings und der Inferenz unterschiedliche Anzahlen an Frames verarbeiten, wodurch es sowohl für Bild-Text- als auch für Video-Text-Datensätze geeignet ist. ModelScopeT2V kombiniert drei Komponenten – VQGAN, einen Text-Encoder und eine Denoising-UNet – mit insgesamt 1,7 Milliarden Parametern, wovon 0,5 Milliarden für zeitliche Fähigkeiten reserviert sind. Das Modell erreicht eine überlegene Leistung gegenüber aktuellen State-of-the-Art-Methoden anhand dreier Bewertungsmetriken. Der Quellcode und eine Online-Demo sind unter \url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary} verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp