HyperAIHyperAI
vor 4 Monaten

CogView: Meisterung der Text-zu-Bild-Generierung durch Transformer

Ming Ding; Zhuoyi Yang; Wenyi Hong; Wendi Zheng; Chang Zhou; Da Yin; Junyang Lin; Xu Zou; Zhou Shao; Hongxia Yang; Jie Tang
CogView: Meisterung der Text-zu-Bild-Generierung durch Transformer
Abstract

Die Text-zu-Bild-Generierung im allgemeinen Bereich war lange Zeit ein offenes Problem, das sowohl ein leistungsfähiges Generierungsmodell als auch ein übermodales Verständnis erfordert. Wir schlagen CogView vor, einen Transformer mit 4 Milliarden Parametern und einem VQ-VAE-Tokenisierer, um dieses Problem weiter zu befördern. Darüber hinaus demonstrieren wir Feinabstimmungsstrategien für verschiedene Downstream-Aufgaben, wie z.B. Stillernen, Superresolution, Text-Bild-Ranking und Modedesign, sowie Methoden zur Stabilisierung des Vortrainings, wie z.B. das Eliminieren von NaN-Verlusten (eliminating NaN losses). CogView erreicht den aktuellen Stand der Technik in Bezug auf den FID-Wert auf dem verwischten MS COCO-Datensatz und übertrifft dabei frühere GAN-basierte Modelle sowie eine kürzlich erschienene ähnliche Arbeit namens DALL-E.