HyperAIHyperAI

Command Palette

Search for a command to run...

GIVT: Generative Infinite-Vocabulary Transformers

Michael Tschannen Cian Eastwood Fabian Mentzer

Zusammenfassung

Wir stellen Generative Infinite-Vocabulary Transformers (GIVT) vor, die Vektorsequenzen mit reellen Zahlenwerten generieren, anstatt diskrete Token aus einem endlichen Vokabular. Dazu schlagen wir zwei überraschend einfache Modifikationen an decoder-only Transformers vor: 1) am Eingang ersetzen wir die endliche Vokabular-Abfrage-Tabelle durch eine lineare Projektion der Eingabevektoren; und 2) am Ausgang ersetzen wir die Vorhersage der Logits (üblicherweise auf eine kategorische Verteilung abgebildet) durch die Parameter eines mehrdimensionalen Gaußschen Mischmodells. Inspiriert durch das Bildgenerierungsparadigma von VQ-GAN und MaskGIT, bei denen Transformers zur Modellierung diskreter latenter Sequenzen eines VQ-VAE verwendet werden, nutzen wir GIVT nun, um unquantisierte, reellwertige latente Sequenzen eines βββ-VAE zu modellieren. Bei der klassenbedingten Bildgenerierung übertrifft GIVT sowohl VQ-GAN (sowie verbesserte Varianten) als auch MaskGIT und erreicht eine Leistung, die mit jüngeren Latent-Diffusionsmodellen konkurrieren kann. Schließlich erzielen wir starke Ergebnisse außerhalb der Bildgenerierung, indem wir GIVT auf die Panoptic-Segmentierung und Tiefenschätzung anwenden, wobei wir eine VAE-Variante des UViM-Frameworks verwenden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp