Draft-and-Revise: Effektive Bildgenerierung mit kontextualer RQ-Transformer

Obwohl autoregressive Modelle vielversprechende Ergebnisse bei der Bildgenerierung erzielt haben, hindert ihr einseitiger Generierungsprozess daran, dass die resultierenden Bilder die globale Kontextinformation vollständig widerspiegeln. Um dieses Problem zu lösen, schlagen wir einen effektiven Rahmen für die Bildgenerierung namens Draft-and-Revise mit Contextual RQ-Transformer vor, der während des Generierungsprozesses globale Kontexte berücksichtigt. Als verallgemeinerte Variante von VQ-VAE stellt RQ-VAE ein Bild mit hoher Auflösung zunächst als Sequenz diskreter Codestapel dar. Nachdem zufällig ausgewählte Codestapel in dieser Sequenz maskiert werden, wird der Contextual RQ-Transformer darauf trainiert, die maskierten Codestapel basierend auf den unmaskierten Kontextinformationen des Bildes zu ergänzen. Anschließend nutzt der Contextual RQ-Transformer unsere zweiphasige Dekodierung, den Draft-and-Revise-Ansatz, um ein Bild zu generieren, wobei die globalen Kontexte des Bildes während des gesamten Prozesses berücksichtigt werden. Genauer gesagt konzentriert sich das Modell in der Draft-Phase zunächst darauf, vielfältige Bilder zu erzeugen, auch wenn deren Qualität zunächst noch gering ist. In der anschließenden Revise-Phase verbessert das Modell iterativ die Bildqualität, während es gleichzeitig die globalen Kontexte der generierten Bilder bewahrt. In Experimenten erreicht unsere Methode state-of-the-art-Ergebnisse bei der bedingten Bildgenerierung. Zudem bestätigen wir, dass der Draft-and-Revise-Dekodierungsansatz eine hohe Leistung erzielt, indem er die Qualität-Diversität-Trade-off in der Bildgenerierung effektiv steuert.