HyperAIHyperAI

Command Palette

Search for a command to run...

Modélisation d'images à l'aide de VQGAN amélioré avec quantification vectorielle

Jiahui Yu Xin Li Jing Yu Koh Han Zhang Ruoming Pang James Qin Alexander Ku Yuanzhong Xu Jason Baldridge Yonghui Wu

Résumé

L’entraînement préalable des modèles linguistiques par prédiction du mot suivant sur de vastes corpus de texte a permis d’obtenir des performances remarquables en apprentissage zéro-shot, en apprentissage peu supervisé, en transfert et en apprentissage multi-tâches, tant pour les tâches génératives que discriminatives en traitement du langage. Inspirés par cette réussite, nous explorons une approche de modélisation d’images quantifiées vectoriellement (Vector-quantized Image Modeling, VIM), qui consiste à entraîner préalablement un Transformer pour prédire de manière autoregressive des tokens d’image rasterisés. Ces tokens d’image discrets sont extraits à partir d’un modèle VQGAN basé sur un Vision Transformer (ViT-VQGAN), appris de manière end-to-end. Nous proposons d’abord plusieurs améliorations par rapport au VQGAN classique, tant au niveau de l’architecture que de l’apprentissage du codebook, permettant d’obtenir une meilleure efficacité et une fidélité de reconstruction accrue. Le ViT-VQGAN amélioré renforce de manière significative les performances sur diverses tâches de modélisation d’images quantifiées vectoriellement, notamment la génération d’images sans condition, la génération conditionnelle par classe et l’apprentissage non supervisé de représentations. Lorsqu’il est entraîné sur ImageNet à une résolution de (256 \times 256), notre modèle atteint un score Inception (IS) de 175,1 et une distance Fréchet Inception (FID) de 4,17, une amélioration marquée par rapport au VQGAN classique, qui atteint respectivement 70,6 et 17,04 pour IS et FID. En s’appuyant sur le ViT-VQGAN et un entraînement préalable non supervisé, nous évaluons ensuite le Transformer préentraîné en moyennant les caractéristiques intermédiaires, selon une approche similaire à celle de Image GPT (iGPT). Le modèle VIM-L préentraîné sur ImageNet surpasse significativement iGPT-L en précision de la sonde linéaire, passant de 60,3 % à 73,2 % pour une taille de modèle comparable. VIM-L dépasse également iGPT-XL, qui est entraîné sur des données d’images web supplémentaires et avec une taille de modèle plus importante.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modélisation d'images à l'aide de VQGAN amélioré avec quantification vectorielle | Articles | HyperAI