Autoregressive Image Generation ohne Vektorquantisierung

Die etablierte Auffassung besagt, dass autoregressive Modelle für die Bildgenerierung typischerweise mit vektorquantisierten Tokens einhergehen. Wir beobachten, dass ein diskreter Wertebereich zwar die Darstellung einer kategorialen Verteilung erleichtern kann, jedoch keine zwingende Voraussetzung für autoregressive Modelle ist. In dieser Arbeit schlagen wir vor, die pro-Token-Wahrscheinlichkeitsverteilung mittels eines Diffusionsverfahrens zu modellieren, wodurch autoregressive Modelle in einem kontinuierlichen Wertebereich angewendet werden können. Anstelle der herkömmlichen kategorischen Kreuzentropieverlustfunktion definieren wir eine Diffusionsverlustfunktion zur Modellierung der pro-Token-Wahrscheinlichkeit. Dieser Ansatz entfällt den Bedarf an diskreten Tokenisierern. Wir evaluieren die Wirksamkeit unseres Ansatzes in einer Vielzahl von Szenarien, einschließlich standardmäßiger autoregressiver Modelle sowie verallgemeinerter maskierter autoregressiver (MAR) Varianten. Durch die Eliminierung der Vektorquantisierung erzielt unser Bildgenerator starke Ergebnisse und profitiert gleichzeitig von der Geschwindigkeitsvorteile der Sequenzmodellierung. Wir hoffen, dass diese Arbeit die Anwendung autoregressiver Generierung in anderen kontinuierlichen Wertebereichen und Anwendungsfeldern anregen wird. Der Quellcode ist unter folgender URL verfügbar: https://github.com/LTH14/mar.