CogView2: Schneller und besserer Text-zu-Bild-Generierung mittels hierarchischer Transformers

Die Entwicklung transformerbasierter Text-zu-Bild-Modelle wird durch deren langsame Generierung und Komplexität bei der Erzeugung hochauflösender Bilder behindert. In dieser Arbeit präsentieren wir eine Lösung basierend auf hierarchischen Transformers und lokaler paralleler autoregressiver Generierung. Wir prätrainieren einen 6-Billionen-Parameter-Transformer mit einer einfachen und flexiblen selbstüberwachten Aufgabe, dem Cross-modal General Language Model (CogLM), und fine-tunen ihn anschließend für eine schnelle Super-Resolution. Das neue Text-zu-Bild-System CogView2 zeigt gegenüber gleichzeitig existierenden State-of-the-Art-Modellen wie DALL-E-2 konkurrenzfähige Generierungsergebnisse und unterstützt natürlicherweise interaktives, textgesteuertes Bildeditieren.