HyperAIHyperAI
il y a 17 jours

Déverrouiller les arrière-plans pré-entraînés d'images pour la synthèse d'images sémantiques

Tariq Berrada, Jakob Verbeek, Camille Couprie, Karteek Alahari
Déverrouiller les arrière-plans pré-entraînés d'images pour la synthèse d'images sémantiques
Résumé

La synthèse d’images sémantiques, c’est-à-dire la génération d’images à partir de cartes d’étiquettes sémantiques fournies par l’utilisateur, constitue une tâche fondamentale de génération d’images conditionnelles, car elle permet de contrôler à la fois le contenu et la disposition spatiale des images générées. Bien que les modèles de diffusion aient permis d’atteindre l’état de l’art en matière de modélisation d’images génératives, leur processus d’inférence itératif les rend très exigeants en ressources computationnelles. D’autres approches, telles que les GAN (Generative Adversarial Networks), sont plus efficaces, puisqu’elles nécessitent uniquement un passage en avant unique pour la génération, mais la qualité des images tend à décliner sur des jeux de données volumineux et diversifiés. Dans ce travail, nous proposons une nouvelle classe de discriminateurs GAN pour la synthèse d’images sémantiques, capable de produire des images hautement réalistes en exploitant des réseaux d’architecture de caractéristiques pré-entraînés pour des tâches telles que la classification d’images. Nous introduisons également une nouvelle architecture de générateur offrant une meilleure modélisation du contexte et utilisant une attention croisée pour injecter du bruit dans les variables latentes, ce qui conduit à des images générées plus diversifiées. Notre modèle, que nous appelons DP-SIMS, atteint des résultats de pointe en termes de qualité d’image et de cohérence avec les cartes d’étiquettes d’entrée sur les jeux de données ADE-20K, COCO-Stuff et Cityscapes, surpassant même des modèles de diffusion récents, tout en nécessitant deux ordres de grandeur moins de calcul pour l’inférence.

Déverrouiller les arrière-plans pré-entraînés d'images pour la synthèse d'images sémantiques | Articles de recherche récents | HyperAI