Génération d'images conditionnelle à texte hiérarchique avec les latents de CLIP

Les modèles contrastifs comme CLIP ont démontré leur capacité à apprendre des représentations robustes d'images qui capturent à la fois la sémantique et le style. Pour exploiter ces représentations dans la génération d'images, nous proposons un modèle en deux étapes : une première étape consistant à générer un plongement d'image CLIP à partir d'une légende textuelle, et une deuxième étape consistant à générer une image conditionnée par ce plongement d'image. Nous montrons que la génération explicite de représentations d'images améliore la diversité des images avec une perte minimale en photoréalisme et en similarité de légende. Nos décodeurs conditionnés par les représentations d'images peuvent également produire des variations d'une image tout en préservant sa sémantique et son style, tout en modifiant les détails non essentiels absents de la représentation d'image. De plus, l'espace de plongement conjoint de CLIP permet des manipulations d'images guidées par le langage de manière zéro-shot (zero-shot). Nous utilisons des modèles de diffusion pour le décodeur et expérimentons avec des modèles autoregressifs et des modèles de diffusion pour la première étape, constatant que ces derniers sont plus efficaces sur le plan computationnel et produisent des échantillons de meilleure qualité.