HyperAIHyperAI

Command Palette

Search for a command to run...

CogView: Meisterung der Text-zu-Bild-Generierung durch Transformer

Ming Ding†, Zhuoyi Yang†, Wenyi Hong‡, Wendi Zheng†, Chang Zhou†, Da Yin†, Junyang Lin‡, Xu Zou†, Zhou Shao♠, Hongxia Yang‡, Jie Tang†♠

Zusammenfassung

Die Text-zu-Bild-Generierung im allgemeinen Bereich war lange Zeit ein offenes Problem, das sowohl ein leistungsfähiges Generierungsmodell als auch ein übermodales Verständnis erfordert. Wir schlagen CogView vor, einen Transformer mit 4 Milliarden Parametern und einem VQ-VAE-Tokenisierer, um dieses Problem weiter zu befördern. Darüber hinaus demonstrieren wir Feinabstimmungsstrategien für verschiedene Downstream-Aufgaben, wie z.B. Stillernen, Superresolution, Text-Bild-Ranking und Modedesign, sowie Methoden zur Stabilisierung des Vortrainings, wie z.B. das Eliminieren von NaN-Verlusten (eliminating NaN losses). CogView erreicht den aktuellen Stand der Technik in Bezug auf den FID-Wert auf dem verwischten MS COCO-Datensatz und übertrifft dabei frühere GAN-basierte Modelle sowie eine kürzlich erschienene ähnliche Arbeit namens DALL-E.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
CogView: Meisterung der Text-zu-Bild-Generierung durch Transformer | Paper | HyperAI