HyperAIHyperAI

Command Palette

Search for a command to run...

MaskBit: Bildgenerierung ohne Embeddings mittels Bit-Tokens

Mark Weber Lijun Yu Qihang Yu Xueqing Deng Xiaohui Shen Daniel Cremers Liang-Chieh Chen

Zusammenfassung

Maskierte Transformer-Modelle für die klassenbedingte Bildgenerierung sind zu einer überzeugenden Alternative zu Diffusionsmodellen geworden. Typischerweise bestehen diese Ansätze aus zwei Phasen: einem initialen VQGAN-Modell zur Transformation zwischen Latentraum und Bildraum sowie einem nachfolgenden Transformer-Modell zur Bildgenerierung im Latentraum. Diese Architekturen eröffnen vielversprechende Wege für die Bildsynthese. In dieser Studie präsentieren wir zwei zentrale Beiträge: Erstens eine empirische und systematische Untersuchung von VQGANs, die zu einem modernisierten VQGAN führt. Zweitens ein neuartiges, embeddingsfreies Generierungsnetzwerk, das direkt auf Bit-Tokens operiert – einer binären quantisierten Darstellung von Tokens mit reicher Semantik. Der erste Beitrag liefert ein transparentes, reproduzierbares und leistungsstarkes VQGAN-Modell, das die Zugänglichkeit verbessert und die Leistung aktueller State-of-the-Art-Methoden erreicht, während zugleich bisher unerkannte Details aufgedeckt werden. Der zweite Beitrag zeigt, dass die embeddingsfreie Bildgenerierung mittels Bit-Tokens einen neuen State-of-the-Art-FID-Wert von 1,52 auf dem ImageNet-256x256-Benchmark erreicht, wobei das Generatormodell lediglich 305 M Parameter umfasst.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MaskBit: Bildgenerierung ohne Embeddings mittels Bit-Tokens | Paper | HyperAI