Modélisation d'images à l'aide de VQGAN amélioré avec quantification vectorielle

L’entraînement préalable des modèles linguistiques par prédiction du mot suivant sur de vastes corpus de texte a permis d’obtenir des performances remarquables en apprentissage zéro-shot, en apprentissage peu supervisé, en transfert et en apprentissage multi-tâches, tant pour les tâches génératives que discriminatives en traitement du langage. Inspirés par cette réussite, nous explorons une approche de modélisation d’images quantifiées vectoriellement (Vector-quantized Image Modeling, VIM), qui consiste à entraîner préalablement un Transformer pour prédire de manière autoregressive des tokens d’image rasterisés. Ces tokens d’image discrets sont extraits à partir d’un modèle VQGAN basé sur un Vision Transformer (ViT-VQGAN), appris de manière end-to-end. Nous proposons d’abord plusieurs améliorations par rapport au VQGAN classique, tant au niveau de l’architecture que de l’apprentissage du codebook, permettant d’obtenir une meilleure efficacité et une fidélité de reconstruction accrue. Le ViT-VQGAN amélioré renforce de manière significative les performances sur diverses tâches de modélisation d’images quantifiées vectoriellement, notamment la génération d’images sans condition, la génération conditionnelle par classe et l’apprentissage non supervisé de représentations. Lorsqu’il est entraîné sur ImageNet à une résolution de (256 \times 256), notre modèle atteint un score Inception (IS) de 175,1 et une distance Fréchet Inception (FID) de 4,17, une amélioration marquée par rapport au VQGAN classique, qui atteint respectivement 70,6 et 17,04 pour IS et FID. En s’appuyant sur le ViT-VQGAN et un entraînement préalable non supervisé, nous évaluons ensuite le Transformer préentraîné en moyennant les caractéristiques intermédiaires, selon une approche similaire à celle de Image GPT (iGPT). Le modèle VIM-L préentraîné sur ImageNet surpasse significativement iGPT-L en précision de la sonde linéaire, passant de 60,3 % à 73,2 % pour une taille de modèle comparable. VIM-L dépasse également iGPT-XL, qui est entraîné sur des données d’images web supplémentaires et avec une taille de modèle plus importante.