il y a 15 jours

Génération d'images autoregressive utilisant une quantification résiduelle

Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, Wook-Shin Han

Résumé

Pour la modélisation autoregressive (AR) d’images à haute résolution, la quantification vectorielle (VQ) représente une image sous la forme d’une séquence de codes discrets. Une longueur de séquence courte est essentielle pour un modèle AR afin de réduire les coûts computationnels liés à l’interaction à longue portée entre les codes. Toutefois, nous proposons que les approches VQ antérieures ne parviennent pas simultanément à réduire la longueur de la séquence de codes tout en générant des images de haute fidélité, dans le cadre du compromis taux-distorsion. Dans cette étude, nous introduisons un cadre en deux étapes, composé d’un VAE à quantification résiduelle (RQ-VAE) et d’un RQ-Transformer, afin de générer efficacement des images à haute résolution. Étant donné une taille de codebook fixe, le RQ-VAE permet une approximation précise de la carte de caractéristiques d’une image, et représente celle-ci sous la forme d’une carte empilée de codes discrets. Ensuite, le RQ-Transformer apprend à prédire le vecteur de caractéristiques quantifié au position suivante en prédiction la prochaine pile de codes. Grâce à l’approximation précise du RQ-VAE, nous pouvons représenter une image de 256×256 pixels par une carte de caractéristiques de résolution 8×8, permettant ainsi au RQ-Transformer de réduire de manière efficace les coûts computationnels. En conséquence, notre cadre surpasser les modèles AR existants sur diverses benchmarks de génération d’images inconditionnelles et conditionnelles. De plus, notre approche présente une vitesse d’échantillonnage significativement plus rapide que les modèles AR antérieurs, tout en générant des images de haute qualité.