HyperAIHyperAI
il y a 17 jours

USIS : Synthèse d’image sémantique non supervisée

George Eskandar, Mohamed Abdelsamad, Karim Armanious, Bin Yang
USIS : Synthèse d’image sémantique non supervisée
Résumé

La synthèse d’images sémantiques (SIS) est une sous-classe de la traduction d’images où une image photoréaliste est générée à partir d’un masque de segmentation. La SIS a principalement été abordée comme un problème supervisé. Toutefois, les méthodes les plus avancées dépendent d’une quantité considérable de données étiquetées et ne peuvent pas être appliquées dans un cadre non apparié. En revanche, les cadres génériques de traduction d’images non appariées obtiennent des performances médiocres, car ils codent les dispositions sémantiques par des couleurs et les alimentent dans des réseaux convolutionnels traditionnels, qui apprennent alors des correspondances en apparence plutôt qu’en contenu sémantique. Dans ce travail initial, nous proposons un nouveau paradigme non supervisé pour la synthèse d’images sémantiques (USIS), en vue de combler progressivement l’écart de performance entre les cadres appariés et non appariés. Notamment, notre architecture utilise un générateur SPADE qui apprend à produire des images dont les classes sémantiques sont visuellement séparables, grâce à une perte de segmentation auto-supervisée. En outre, afin de reproduire la distribution des couleurs et des textures des images réelles sans perdre d’informations à haute fréquence, nous proposons d’adopter une discrimination basée sur la transformation en ondelettes de l’image entière. Nous évaluons notre méthode sur trois jeux de données exigeants et démontrons sa capacité à générer des images photoréalistes multimodales de qualité améliorée dans un cadre non apparié.

USIS : Synthèse d’image sémantique non supervisée | Articles de recherche récents | HyperAI