HyperAIHyperAI
vor 3 Monaten

CogView2: Schneller und besserer Text-zu-Bild-Generierung mittels hierarchischer Transformers

Ming Ding, Wendi Zheng, Wenyi Hong, Jie Tang
CogView2: Schneller und besserer Text-zu-Bild-Generierung mittels hierarchischer Transformers
Abstract

Die Entwicklung transformerbasierter Text-zu-Bild-Modelle wird durch deren langsame Generierung und Komplexität bei der Erzeugung hochauflösender Bilder behindert. In dieser Arbeit präsentieren wir eine Lösung basierend auf hierarchischen Transformers und lokaler paralleler autoregressiver Generierung. Wir prätrainieren einen 6-Billionen-Parameter-Transformer mit einer einfachen und flexiblen selbstüberwachten Aufgabe, dem Cross-modal General Language Model (CogLM), und fine-tunen ihn anschließend für eine schnelle Super-Resolution. Das neue Text-zu-Bild-System CogView2 zeigt gegenüber gleichzeitig existierenden State-of-the-Art-Modellen wie DALL-E-2 konkurrenzfähige Generierungsergebnisse und unterstützt natürlicherweise interaktives, textgesteuertes Bildeditieren.