GIVT: Generative Infinite-Vocabulary Transformers

Wir stellen Generative Infinite-Vocabulary Transformers (GIVT) vor, die Vektorsequenzen mit reellen Zahlenwerten generieren, anstatt diskrete Token aus einem endlichen Vokabular. Dazu schlagen wir zwei überraschend einfache Modifikationen an decoder-only Transformers vor: 1) am Eingang ersetzen wir die endliche Vokabular-Abfrage-Tabelle durch eine lineare Projektion der Eingabevektoren; und 2) am Ausgang ersetzen wir die Vorhersage der Logits (üblicherweise auf eine kategorische Verteilung abgebildet) durch die Parameter eines mehrdimensionalen Gaußschen Mischmodells. Inspiriert durch das Bildgenerierungsparadigma von VQ-GAN und MaskGIT, bei denen Transformers zur Modellierung diskreter latenter Sequenzen eines VQ-VAE verwendet werden, nutzen wir GIVT nun, um unquantisierte, reellwertige latente Sequenzen eines $β$-VAE zu modellieren. Bei der klassenbedingten Bildgenerierung übertrifft GIVT sowohl VQ-GAN (sowie verbesserte Varianten) als auch MaskGIT und erreicht eine Leistung, die mit jüngeren Latent-Diffusionsmodellen konkurrieren kann. Schließlich erzielen wir starke Ergebnisse außerhalb der Bildgenerierung, indem wir GIVT auf die Panoptic-Segmentierung und Tiefenschätzung anwenden, wobei wir eine VAE-Variante des UViM-Frameworks verwenden.