HyperAIHyperAI
vor 16 Tagen

ModelScope Text-to-Video Technischer Bericht

Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, Shiwei Zhang
ModelScope Text-to-Video Technischer Bericht
Abstract

Diese Arbeit stellt ModelScopeT2V vor, ein Text-zu-Video-Synthese-Modell, das sich aus einem Text-zu-Bild-Synthese-Modell (nämlich Stable Diffusion) entwickelt hat. ModelScopeT2V integriert räumlich-zeitliche Blöcke, um eine konsistente Bildgenerierung und reibungslose Bewegungstransitionen sicherzustellen. Das Modell kann während des Trainings und der Inferenz unterschiedliche Anzahlen an Frames verarbeiten, wodurch es sowohl für Bild-Text- als auch für Video-Text-Datensätze geeignet ist. ModelScopeT2V kombiniert drei Komponenten – VQGAN, einen Text-Encoder und eine Denoising-UNet – mit insgesamt 1,7 Milliarden Parametern, wovon 0,5 Milliarden für zeitliche Fähigkeiten reserviert sind. Das Modell erreicht eine überlegene Leistung gegenüber aktuellen State-of-the-Art-Methoden anhand dreier Bewertungsmetriken. Der Quellcode und eine Online-Demo sind unter \url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary} verfügbar.