HyperAIHyperAI

Command Palette

Search for a command to run...

Déverrouiller les arrière-plans pré-entraînés d'images pour la synthèse d'images sémantiques

Tariq Berrada Jakob Verbeek Camille Couprie Karteek Alahari

Résumé

La synthèse d’images sémantiques, c’est-à-dire la génération d’images à partir de cartes d’étiquettes sémantiques fournies par l’utilisateur, constitue une tâche fondamentale de génération d’images conditionnelles, car elle permet de contrôler à la fois le contenu et la disposition spatiale des images générées. Bien que les modèles de diffusion aient permis d’atteindre l’état de l’art en matière de modélisation d’images génératives, leur processus d’inférence itératif les rend très exigeants en ressources computationnelles. D’autres approches, telles que les GAN (Generative Adversarial Networks), sont plus efficaces, puisqu’elles nécessitent uniquement un passage en avant unique pour la génération, mais la qualité des images tend à décliner sur des jeux de données volumineux et diversifiés. Dans ce travail, nous proposons une nouvelle classe de discriminateurs GAN pour la synthèse d’images sémantiques, capable de produire des images hautement réalistes en exploitant des réseaux d’architecture de caractéristiques pré-entraînés pour des tâches telles que la classification d’images. Nous introduisons également une nouvelle architecture de générateur offrant une meilleure modélisation du contexte et utilisant une attention croisée pour injecter du bruit dans les variables latentes, ce qui conduit à des images générées plus diversifiées. Notre modèle, que nous appelons DP-SIMS, atteint des résultats de pointe en termes de qualité d’image et de cohérence avec les cartes d’étiquettes d’entrée sur les jeux de données ADE-20K, COCO-Stuff et Cityscapes, surpassant même des modèles de diffusion récents, tout en nécessitant deux ordres de grandeur moins de calcul pour l’inférence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Déverrouiller les arrière-plans pré-entraînés d'images pour la synthèse d'images sémantiques | Articles | HyperAI