Freisetzen von Transformers: Parallel Token-Vorhersage mit diskreter absorbierender Diffusion zur schnellen Erzeugung hochauflösender Bilder aus vektorquantisierten Codes

Während Diffusions-wahrscheinliche Modelle hochwertigen Bildinhalt generieren können, bestehen weiterhin wesentliche Einschränkungen hinsichtlich der Erzeugung hochauflösender Bilder sowie der damit verbundenen hohen Rechenanforderungen. Kürzlich vorgestellte vektorquantisierte Bildmodelle haben die Beschränkung der Bildauflösung überwunden, sind jedoch aufgrund der einseitigen, elementweisen autoregressiven Stichprobenziehung aus der Prior prohibitiv langsam. Im Gegensatz dazu schlagen wir in diesem Artikel einen neuartigen diskreten Diffusions-wahrscheinlichen Prior vor, der eine parallele Vorhersage vektorquantisierter Token ermöglicht, indem eine unbeschränkte Transformer-Architektur als Grundlage verwendet wird. Während des Trainings werden die Token ordnungsunabhängig zufällig maskiert, und der Transformer lernt, die ursprünglichen Token vorherzusagen. Diese Parallelität der vektorquantisierten Token-Vorhersage ermöglicht schließlich die unbedingte Generierung global konsistenter, hochauflösender und vielfältiger Bilder mit einem Bruchteil der Rechenkosten. Auf diese Weise können wir Bildauflösungen erzeugen, die jene der ursprünglichen Trainingsdatensätze übertreffen, und zusätzlich pro-Bild-Wahrscheinlichkeitsschätzungen bereitstellen (im Gegensatz zu generativen adversarialen Ansätzen). Unser Ansatz erzielt state-of-the-art Ergebnisse hinsichtlich der Dichte (LSUN Bedroom: 1,51; LSUN Churches: 1,12; FFHQ: 1,20) und Abdeckung (LSUN Bedroom: 0,83; LSUN Churches: 0,73; FFHQ: 0,80) und zeigt wettbewerbsfähige Ergebnisse hinsichtlich des FID (LSUN Bedroom: 3,64; LSUN Churches: 4,07; FFHQ: 6,11), wobei er zudem Vorteile hinsichtlich Rechenkosten und reduzierter Anforderung an das Trainingsdatenset bietet.