HyperAIHyperAI

Command Palette

Search for a command to run...

GIVT : Transformateurs génératifs à vocabulaire infini

Michael Tschannen Cian Eastwood Fabian Mentzer

Résumé

Nous introduisons les Transformers génératifs à vocabulaire infini (GIVT), qui génèrent des séquences de vecteurs dotés de composantes à valeurs réelles, plutôt que des tokens discrets issus d’un vocabulaire fini. Pour ce faire, nous proposons deux modifications étonnamment simples aux transformers à décodeur unique : 1) à l’entrée, nous remplaçons la table de recherche associée à un vocabulaire fini par une projection linéaire des vecteurs d’entrée ; et 2) à la sortie, nous remplaçons la prédiction des logits (habituellement transformée en une distribution catégorielle) par la paramétrisation d’un modèle de mélanges de gaussiennes multivariées. Inspirés du paradigme de génération d’images adopté par VQ-GAN et MaskGIT, où les transformers modélisent des séquences latentes discrètes issues d’un VQ-VAE, nous utilisons ici les GIVT pour modéliser des séquences latentes réelles non quantifiées issues d’un βββ-VAE. Dans la génération d’images conditionnelle par classe, les GIVT surpassent VQ-GAN (ainsi que ses variantes améliorées) ainsi que MaskGIT, tout en atteignant des performances compétitives par rapport aux récents modèles de diffusion latente. Enfin, nous obtenons des résultats prometteurs au-delà de la génération d’images en appliquant les GIVT à la segmentation panoptique et à l’estimation de profondeur, via une variante du cadre UViM basée sur un VAE.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp