GALIP : Adversarial CLIPs génératifs pour la synthèse d’images à partir de texte

La synthèse d’images complexes de haute fidélité à partir de texte reste un défi majeur. Grâce à un pré-entraînement à grande échelle, les modèles auto-régressifs et les modèles à diffusion parviennent à générer des images photoréalistes. Bien que ces grands modèles aient montré des progrès notables, trois limites persistent : 1) Ils nécessitent des volumes considérables de données d’entraînement et un grand nombre de paramètres pour atteindre de bons résultats ; 2) Leur architecture de génération en plusieurs étapes ralentit fortement le processus de synthèse ; 3) Les caractéristiques visuelles synthétisées sont difficiles à contrôler, ce qui impose la conception de prompts soigneusement élaborés. Pour permettre une synthèse texte-image de haute qualité, efficace, rapide et contrôlable, nous proposons GALIP, un modèle basé sur les adversarial GANs intégrant CLIP. GALIP exploite le puissant modèle pré-entraîné CLIP à la fois dans le générateur et dans le discriminateur. Plus précisément, nous introduisons un discriminateur fondé sur CLIP, dont la capacité d’analyse de scènes complexes permet une évaluation précise de la qualité des images. Par ailleurs, nous proposons un générateur renforcé par CLIP, qui extrait des concepts visuels à partir de CLIP grâce à des caractéristiques de pont et à des prompts. L’intégration de CLIP au sein du générateur et du discriminateur améliore significativement l’efficacité de l’entraînement : notre modèle n’exige qu’environ 3 % des données d’entraînement et 6 % des paramètres ajustables des grands modèles pré-entraînés auto-régressifs ou à diffusion, tout en atteignant des performances comparables. En outre, notre modèle réalise une vitesse de synthèse 120 fois plus rapide et hérite de l’espace latent lisse propre aux GAN. Les résultats expérimentaux étendus démontrent l’excellente performance de notre modèle GALIP. Le code est disponible à l’adresse suivante : https://github.com/tobran/GALIP.