Command Palette
Search for a command to run...
CogVideo: Großskaliges Pretraining für Text-zu-Video-Generierung mittels Transformers
CogVideo: Großskaliges Pretraining für Text-zu-Video-Generierung mittels Transformers
Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang
Zusammenfassung
Großskalige vortrainierte Transformatoren haben Meilensteine in der Textgenerierung (GPT-3) und der Text-zu-Bild-Generierung (DALL-E und CogView) gesetzt. Ihre Anwendung in der Videoerzeugung steht jedoch weiterhin vor zahlreichen Herausforderungen: Die potenziell extrem hohen Rechenkosten machen ein Training von Grund auf unerschwinglich; zudem behindern die Seltenheit und geringe Relevanz von Text-Video-Datensätzen das Verständnis komplexer Bewegungssemantik durch Modelle. In dieser Arbeit präsentieren wir den 9-Billionen-Parameter-Transformer CogVideo, der durch Vererbung eines vortrainierten Text-zu-Bild-Modells, nämlich CogView2, trainiert wurde. Zudem stellen wir eine mehrstufige, frame-rate-orientierte hierarchische Trainingsstrategie vor, um die Alignment zwischen Text und Videoclips besser zu gewährleisten. Als (vermutlich) das erste Open-Source-Modell für großskalige vortrainierte Text-zu-Video-Generierung erreicht CogVideo in maschinellen und menschlichen Bewertungen deutlich höhere Leistungen als alle bisher öffentlich verfügbaren Modelle.