Draft-and-Revise : Génération d’images efficace basée sur le RQ-Transformer contextuel

Bien que les modèles autoregressifs aient obtenu des résultats prometteurs dans la génération d’images, leur processus de génération unidirectionnel empêche les images produites de refléter pleinement les contextes globaux. Pour résoudre ce problème, nous proposons un cadre efficace de génération d’images basé sur le schéma « Draft-and-Revise » (brouillon et révision) intégrant un transformateur RQ-contextuel, permettant de prendre en compte les contextes globaux tout au long du processus de génération. En tant que variante généralisée du VQ-VAE, le RQ-VAE représente d’abord une image haute résolution sous la forme d’une séquence de piles de codes discrets. Après avoir aléatoirement masqué certaines piles de codes dans cette séquence, le transformateur RQ-contextuel est entraîné à reconstruire les piles masquées en s’appuyant sur les contextes non masqués de l’image. Ensuite, le transformateur RQ-contextuel utilise notre décodage en deux phases, « Draft-and-Revise », pour générer l’image tout en exploitant les contextes globaux au cours du processus. Plus précisément, durant la phase de brouillon, notre modèle se concentre d’abord sur la génération d’images diversifiées, même si leur qualité initiale est relativement faible. Puis, lors de la phase de révision, le modèle améliore itérativement la qualité des images tout en préservant leurs contextes globaux. Dans nos expérimentations, notre méthode atteint des résultats de pointe dans la génération d’images conditionnelles. Nous validons également que le décodage « Draft-and-Revise » permet d’obtenir de hautes performances en maîtrisant efficacement le compromis qualité-diversité dans la génération d’images.