Command Palette
Search for a command to run...
Autoregressive Image Generation unter Verwendung von Residual Quantisierung
Autoregressive Image Generation unter Verwendung von Residual Quantisierung
Doyup Lee Chiheon Kim Saehoon Kim Minsu Cho Wook-Shin Han
Zusammenfassung
Für die autoregressive (AR) Modellierung hochauflösender Bilder stellt die Vektorquantisierung (VQ) ein Bild als eine Folge diskreter Codes dar. Eine kurze Sequenzlänge ist für ein AR-Modell entscheidend, um die Rechenkosten für die Berücksichtigung langreichweitiger Wechselwirkungen zwischen Codes zu reduzieren. Wir vermuten jedoch, dass bisherige VQ-Verfahren nicht gleichzeitig die Code-Sequenz verkürzen und hochfidele Bilder im Sinne des Rate-Distortion-Trade-offs erzeugen können. In dieser Studie schlagen wir einen zweistufigen Ansatz vor, bestehend aus dem Residual-Quantized VAE (RQ-VAE) und dem RQ-Transformer, um hochauflösende Bilder effizient zu generieren. Bei festgehaltener Codebuchgröße kann der RQ-VAE eine Merkmalskarte eines Bildes präzise approximieren und das Bild als gestapelte Karte diskreter Codes darstellen. Anschließend lernt der RQ-Transformer, den quantisierten Merkmalsvektor an der nächsten Position durch Vorhersage des nächsten Codes-Stacks zu bestimmen. Dank der präzisen Approximation durch den RQ-VAE können wir ein Bild der Größe 256×256 als 8×8-Auflösung der Merkmalskarte darstellen, wodurch der RQ-Transformer die Rechenkosten effizient reduzieren kann. Infolge dessen übertrifft unser Ansatz bestehende AR-Modelle in verschiedenen Benchmarks für unbedingte und bedingte Bildgenerierung. Zudem weist unsere Methode eine deutlich schnellere Sampling-Geschwindigkeit im Vergleich zu früheren AR-Modellen auf, um hochwertige Bilder zu erzeugen.