il y a 3 mois

GIVT : Transformateurs génératifs à vocabulaire infini

Michael Tschannen, Cian Eastwood, Fabian Mentzer

Résumé

Nous introduisons les Transformers génératifs à vocabulaire infini (GIVT), qui génèrent des séquences de vecteurs dotés de composantes à valeurs réelles, plutôt que des tokens discrets issus d’un vocabulaire fini. Pour ce faire, nous proposons deux modifications étonnamment simples aux transformers à décodeur unique : 1) à l’entrée, nous remplaçons la table de recherche associée à un vocabulaire fini par une projection linéaire des vecteurs d’entrée ; et 2) à la sortie, nous remplaçons la prédiction des logits (habituellement transformée en une distribution catégorielle) par la paramétrisation d’un modèle de mélanges de gaussiennes multivariées. Inspirés du paradigme de génération d’images adopté par VQ-GAN et MaskGIT, où les transformers modélisent des séquences latentes discrètes issues d’un VQ-VAE, nous utilisons ici les GIVT pour modéliser des séquences latentes réelles non quantifiées issues d’un $β$-VAE. Dans la génération d’images conditionnelle par classe, les GIVT surpassent VQ-GAN (ainsi que ses variantes améliorées) ainsi que MaskGIT, tout en atteignant des performances compétitives par rapport aux récents modèles de diffusion latente. Enfin, nous obtenons des résultats prometteurs au-delà de la génération d’images en appliquant les GIVT à la segmentation panoptique et à l’estimation de profondeur, via une variante du cadre UViM basée sur un VAE.