Autoregressive Image Generation unter Verwendung von Residual Quantisierung

Für die autoregressive (AR) Modellierung hochauflösender Bilder stellt die Vektorquantisierung (VQ) ein Bild als eine Folge diskreter Codes dar. Eine kurze Sequenzlänge ist für ein AR-Modell entscheidend, um die Rechenkosten für die Berücksichtigung langreichweitiger Wechselwirkungen zwischen Codes zu reduzieren. Wir vermuten jedoch, dass bisherige VQ-Verfahren nicht gleichzeitig die Code-Sequenz verkürzen und hochfidele Bilder im Sinne des Rate-Distortion-Trade-offs erzeugen können. In dieser Studie schlagen wir einen zweistufigen Ansatz vor, bestehend aus dem Residual-Quantized VAE (RQ-VAE) und dem RQ-Transformer, um hochauflösende Bilder effizient zu generieren. Bei festgehaltener Codebuchgröße kann der RQ-VAE eine Merkmalskarte eines Bildes präzise approximieren und das Bild als gestapelte Karte diskreter Codes darstellen. Anschließend lernt der RQ-Transformer, den quantisierten Merkmalsvektor an der nächsten Position durch Vorhersage des nächsten Codes-Stacks zu bestimmen. Dank der präzisen Approximation durch den RQ-VAE können wir ein Bild der Größe 256×256 als 8×8-Auflösung der Merkmalskarte darstellen, wodurch der RQ-Transformer die Rechenkosten effizient reduzieren kann. Infolge dessen übertrifft unser Ansatz bestehende AR-Modelle in verschiedenen Benchmarks für unbedingte und bedingte Bildgenerierung. Zudem weist unsere Methode eine deutlich schnellere Sampling-Geschwindigkeit im Vergleich zu früheren AR-Modellen auf, um hochwertige Bilder zu erzeugen.