HyperAIHyperAI

Command Palette

Search for a command to run...

Draft-and-Revise: Effektive Bildgenerierung mit kontextualer RQ-Transformer

Doyup Lee Chiheon Kim Saehoon Kim Minsu Cho Wook-Shin Han

Zusammenfassung

Obwohl autoregressive Modelle vielversprechende Ergebnisse bei der Bildgenerierung erzielt haben, hindert ihr einseitiger Generierungsprozess daran, dass die resultierenden Bilder die globale Kontextinformation vollständig widerspiegeln. Um dieses Problem zu lösen, schlagen wir einen effektiven Rahmen für die Bildgenerierung namens Draft-and-Revise mit Contextual RQ-Transformer vor, der während des Generierungsprozesses globale Kontexte berücksichtigt. Als verallgemeinerte Variante von VQ-VAE stellt RQ-VAE ein Bild mit hoher Auflösung zunächst als Sequenz diskreter Codestapel dar. Nachdem zufällig ausgewählte Codestapel in dieser Sequenz maskiert werden, wird der Contextual RQ-Transformer darauf trainiert, die maskierten Codestapel basierend auf den unmaskierten Kontextinformationen des Bildes zu ergänzen. Anschließend nutzt der Contextual RQ-Transformer unsere zweiphasige Dekodierung, den Draft-and-Revise-Ansatz, um ein Bild zu generieren, wobei die globalen Kontexte des Bildes während des gesamten Prozesses berücksichtigt werden. Genauer gesagt konzentriert sich das Modell in der Draft-Phase zunächst darauf, vielfältige Bilder zu erzeugen, auch wenn deren Qualität zunächst noch gering ist. In der anschließenden Revise-Phase verbessert das Modell iterativ die Bildqualität, während es gleichzeitig die globalen Kontexte der generierten Bilder bewahrt. In Experimenten erreicht unsere Methode state-of-the-art-Ergebnisse bei der bedingten Bildgenerierung. Zudem bestätigen wir, dass der Draft-and-Revise-Dekodierungsansatz eine hohe Leistung erzielt, indem er die Qualität-Diversität-Trade-off in der Bildgenerierung effektiv steuert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Draft-and-Revise: Effektive Bildgenerierung mit kontextualer RQ-Transformer | Paper | HyperAI