HyperAIHyperAI
il y a 2 mois

Modèles de diffusion conditionnelle stochastique pour une synthèse d'images sémantiques robuste

Juyeon Ko; Inho Kong; Dogyun Park; Hyunwoo J. Kim
Modèles de diffusion conditionnelle stochastique pour une synthèse d'images sémantiques robuste
Résumé

La synthèse sémantique d'images (SIS) est une tâche visant à générer des images réalistes correspondant à des cartes sémantiques (étiquettes). Cependant, dans les applications pratiques, la SIS rencontre souvent des entrées utilisateur bruitées. Pour remédier à ce problème, nous proposons le modèle de diffusion conditionnelle stochastique (SCDM), qui est un modèle de diffusion conditionnelle robuste doté de processus avancés et de génération spécifiquement conçus pour la SIS avec des étiquettes bruitées. Ce modèle améliore la robustesse en perturbant stochastiquement les cartes d'étiquettes sémantiques par diffusion d'étiquettes, qui diffuse les étiquettes par diffusion discrète. Grâce à cette diffusion d'étiquettes, les cartes sémantiques bruitées et propres deviennent similaires au fur et à mesure que l'étape temporelle augmente, jusqu'à devenir identiques à $t=T$. Cela facilite la génération d'une image proche d'une image propre, permettant ainsi une génération robuste. De plus, nous proposons un calendrier de bruit par classe pour diffuser différenciellement les étiquettes en fonction de leur classe. Nous montrons que la méthode proposée génère des échantillons de haute qualité grâce à des expérimentations et analyses approfondies sur des jeux de données de référence, y compris un nouveau protocole expérimental simulant les erreurs humaines lors des applications pratiques. Le code est disponible sur https://github.com/mlvlab/SCDM.

Modèles de diffusion conditionnelle stochastique pour une synthèse d'images sémantiques robuste | Articles de recherche récents | HyperAI