MaskBit: Bildgenerierung ohne Embeddings mittels Bit-Tokens

Maskierte Transformer-Modelle für die klassenbedingte Bildgenerierung sind zu einer überzeugenden Alternative zu Diffusionsmodellen geworden. Typischerweise bestehen diese Ansätze aus zwei Phasen: einem initialen VQGAN-Modell zur Transformation zwischen Latentraum und Bildraum sowie einem nachfolgenden Transformer-Modell zur Bildgenerierung im Latentraum. Diese Architekturen eröffnen vielversprechende Wege für die Bildsynthese. In dieser Studie präsentieren wir zwei zentrale Beiträge: Erstens eine empirische und systematische Untersuchung von VQGANs, die zu einem modernisierten VQGAN führt. Zweitens ein neuartiges, embeddingsfreies Generierungsnetzwerk, das direkt auf Bit-Tokens operiert – einer binären quantisierten Darstellung von Tokens mit reicher Semantik. Der erste Beitrag liefert ein transparentes, reproduzierbares und leistungsstarkes VQGAN-Modell, das die Zugänglichkeit verbessert und die Leistung aktueller State-of-the-Art-Methoden erreicht, während zugleich bisher unerkannte Details aufgedeckt werden. Der zweite Beitrag zeigt, dass die embeddingsfreie Bildgenerierung mittels Bit-Tokens einen neuen State-of-the-Art-FID-Wert von 1,52 auf dem ImageNet-256x256-Benchmark erreicht, wobei das Generatormodell lediglich 305 M Parameter umfasst.