Ein Bild ist für Rekonstruktion und Generierung 32 Tokens wert

Neuere Fortschritte in generativen Modellen haben die entscheidende Rolle der Bild-Tokenisierung bei der effizienten Synthese hochauflösender Bilder hervorgehoben. Die Tokenisierung, die Bilder in latente Darstellungen transformiert, verringert die rechnerischen Anforderungen im Vergleich zur direkten Verarbeitung von Pixeln und verbessert sowohl Effektivität als auch Effizienz des Generierungsprozesses. Vorangegangene Methoden wie VQGAN nutzen typischerweise 2D-latente Gitter mit festen Untersampling-Faktoren. Diese 2D-Tokenisierungen stoßen jedoch auf Schwierigkeiten bei der Bewältigung der inhärenten Redundanzen in Bildern, bei denen benachbarte Regionen häufig ähnliche Merkmale aufweisen. Um dieses Problem zu überwinden, stellen wir den Transformer-basierten 1-Dimensional Tokenizer (TiTok) vor, einen innovativen Ansatz, der Bilder in 1D-latente Sequenzen tokenisiert. TiTok bietet eine kompaktere latente Darstellung und erzeugt im Vergleich zu herkömmlichen Techniken erheblich effizientere und effektivere Repräsentationen. So kann ein Bild der Größe 256 × 256 × 3 auf lediglich 32 diskrete Tokens reduziert werden – eine signifikante Verringerung gegenüber den 256 oder 1024 Tokens, die frühere Methoden erzeugen. Trotz seiner kompakten Struktur erreicht TiTok eine konkurrenzfähige Leistung im Vergleich zu aktuellen State-of-the-Art-Ansätzen. Insbesondere mit dem gleichen Generator-Framework erzielt TiTok einen gFID-Wert von 1,97, was die MaskGIT-Benchmark erheblich um 4,21 unterbietet, gemessen am ImageNet 256 × 256-Benchmark. Die Vorteile von TiTok werden bei höheren Auflösungen noch deutlicher: Am ImageNet 512 × 512-Benchmark übertrifft TiTok nicht nur den aktuellen State-of-the-Art-Diffusionsmodell DiT-XL/2 (gFID 2,74 gegenüber 3,04), sondern reduziert zudem die Anzahl der Bildtokens um das 64-fache, was zu einer 410-fach schnelleren Generierung führt. Unser bester TiTok-Variant erreicht zudem eine deutlich bessere Leistung als DiT-XL/2 (gFID 2,13 gegenüber 3,04), während gleichzeitig hochwertige Bilder 74-fach schneller generiert werden können.