HyperAIHyperAI

Command Palette

Search for a command to run...

CogVideo: Großskaliges Pretraining für Text-zu-Video-Generierung mittels Transformers

Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang

Zusammenfassung

Großskalige vortrainierte Transformatoren haben Meilensteine in der Textgenerierung (GPT-3) und der Text-zu-Bild-Generierung (DALL-E und CogView) gesetzt. Ihre Anwendung in der Videoerzeugung steht jedoch weiterhin vor zahlreichen Herausforderungen: Die potenziell extrem hohen Rechenkosten machen ein Training von Grund auf unerschwinglich; zudem behindern die Seltenheit und geringe Relevanz von Text-Video-Datensätzen das Verständnis komplexer Bewegungssemantik durch Modelle. In dieser Arbeit präsentieren wir den 9-Billionen-Parameter-Transformer CogVideo, der durch Vererbung eines vortrainierten Text-zu-Bild-Modells, nämlich CogView2, trainiert wurde. Zudem stellen wir eine mehrstufige, frame-rate-orientierte hierarchische Trainingsstrategie vor, um die Alignment zwischen Text und Videoclips besser zu gewährleisten. Als (vermutlich) das erste Open-Source-Modell für großskalige vortrainierte Text-zu-Video-Generierung erreicht CogVideo in maschinellen und menschlichen Bewertungen deutlich höhere Leistungen als alle bisher öffentlich verfügbaren Modelle.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp