HyperAIHyperAI

Command Palette

Search for a command to run...

CogView2: Schneller und besserer Text-zu-Bild-Generierung mittels hierarchischer Transformers

Ming Ding Wendi Zheng Wenyi Hong Jie Tang

Zusammenfassung

Die Entwicklung transformerbasierter Text-zu-Bild-Modelle wird durch deren langsame Generierung und Komplexität bei der Erzeugung hochauflösender Bilder behindert. In dieser Arbeit präsentieren wir eine Lösung basierend auf hierarchischen Transformers und lokaler paralleler autoregressiver Generierung. Wir prätrainieren einen 6-Billionen-Parameter-Transformer mit einer einfachen und flexiblen selbstüberwachten Aufgabe, dem Cross-modal General Language Model (CogLM), und fine-tunen ihn anschließend für eine schnelle Super-Resolution. Das neue Text-zu-Bild-System CogView2 zeigt gegenüber gleichzeitig existierenden State-of-the-Art-Modellen wie DALL-E-2 konkurrenzfähige Generierungsergebnisse und unterstützt natürlicherweise interaktives, textgesteuertes Bildeditieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp