HyperAIHyperAI
il y a 11 jours

MoVQ : Modulation de vecteurs quantifiés pour la génération d’images haute fidélité

Chuanxia Zheng, Long Tung Vuong, Jianfei Cai, Dinh Phung
MoVQ : Modulation de vecteurs quantifiés pour la génération d’images haute fidélité
Résumé

Bien que les modèles génératifs à quantification vectorielle (VQ) en deux étapes permettent de synthétiser des images de haute fidélité et de haute résolution, leur opérateur de quantification encode des patches similaires au sein d'une même image sur le même indice, entraînant des artefacts répétitifs dans les régions adjacentes similaires, en raison des architectures de décodeur existantes. Pour résoudre ce problème, nous proposons d’introduire une normalisation conditionnelle spatialement, afin de moduler les vecteurs quantifiés et d’insérer des informations variant spatialement dans les cartes d’indices intégrés, encourageant ainsi le décodeur à produire des images plus photoréalistes. En outre, nous utilisons une quantification multicanal afin d’accroître la capacité de récombinaison des codes discrets, sans toutefois augmenter le coût du modèle ni celui du dictionnaire de codes. Enfin, pour générer les jetons discrets à la deuxième étape, nous adoptons un Transformer d’image génératif masqué (MaskGIT), qui apprend une distribution a priori sous-jacente dans l’espace latent compressé, offrant une vitesse bien supérieure à celle des modèles autoregressifs classiques. Des expériences menées sur deux jeux de données standard démontrent que notre modèle VQGAN modulé permet d’améliorer considérablement la qualité des images reconstruites, tout en assurant une génération d’images de haute fidélité.

MoVQ : Modulation de vecteurs quantifiés pour la génération d’images haute fidélité | Articles de recherche récents | HyperAI