vor 8 Monaten

Zusammenfassung

Großskalige vortrainierte Transformatoren haben Meilensteine in der Textgenerierung (GPT-3) und der Text-zu-Bild-Generierung (DALL-E und CogView) gesetzt. Ihre Anwendung in der Videoerzeugung steht jedoch weiterhin vor zahlreichen Herausforderungen: Die potenziell extrem hohen Rechenkosten machen ein Training von Grund auf unerschwinglich; zudem behindern die Seltenheit und geringe Relevanz von Text-Video-Datensätzen das Verständnis komplexer Bewegungssemantik durch Modelle. In dieser Arbeit präsentieren wir den 9-Billionen-Parameter-Transformer CogVideo, der durch Vererbung eines vortrainierten Text-zu-Bild-Modells, nämlich CogView2, trainiert wurde. Zudem stellen wir eine mehrstufige, frame-rate-orientierte hierarchische Trainingsstrategie vor, um die Alignment zwischen Text und Videoclips besser zu gewährleisten. Als (vermutlich) das erste Open-Source-Modell für großskalige vortrainierte Text-zu-Video-Generierung erreicht CogVideo in maschinellen und menschlichen Bewertungen deutlich höhere Leistungen als alle bisher öffentlich verfügbaren Modelle.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

CogVideo: Großskaliges Pretraining für Text-zu-Video-Generierung mittels Transformers

Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CogVideo: Großskaliges Pretraining für Text-zu-Video-Generierung mittels Transformers

Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CogVideo: Großskaliges Pretraining für Text-zu-Video-Generierung mittels Transformers

Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters