HyperAIHyperAI
il y a 9 jours

Inpainting d'image par raffinement en cascade entièrement end-to-end avec prise en compte du masque

Manyu Zhu, Dongliang He, Xin Li, Chao Li, Fu Li, Xiao Liu, Errui Ding, Zhaoxiang Zhang
Inpainting d'image par raffinement en cascade entièrement end-to-end avec prise en compte du masque
Résumé

Le remplissage de régions manquantes arbitraires est un défi car l’apprentissage de caractéristiques valides pour diverses régions masquées n’est pas trivial. Bien que les architectures encodage-décodage en forme de U aient démontré leur efficacité, la plupart d’entre elles souffrent d’un défaut commun : l’aveuglement vis-à-vis du masque lors de l’extraction des caractéristiques. En effet, toutes les fenêtres de convolution (ou régions), y compris celles correspondant à des formes variées de pixels manquants, sont traitées de manière équivalente et filtrées à l’aide de noyaux appris de manière fixe. À cet effet, nous proposons une nouvelle solution de remplissage consciente du masque. Premièrement, un module de filtrage dynamique conscient du masque (MADF) est conçu pour apprendre efficacement des caractéristiques multi-échelles des régions manquantes lors de l’étape d’encodage. Plus précisément, les filtres associés à chaque fenêtre de convolution sont générés à partir des caractéristiques de la région correspondante du masque. La deuxième dimension de la prise en compte du masque est assurée par l’introduction de la Normalisation Point-à-Point (PN) dans l’étape de décodage, en considérant que les propriétés statistiques des caractéristiques aux points masqués diffèrent de celles aux points non masqués. La PN proposée résout ce problème en attribuant dynamiquement des facteurs d’échelle et des biais point par point. Enfin, notre modèle est conçu comme un système de raffinement en cascade end-to-end. Des informations de supervision telles que la perte de reconstruction, la perte perceptuelle et la perte de variation totale sont progressivement exploitées afin d’améliorer les résultats de remplissage, du brut au fin. L’efficacité du cadre proposé est validée de manière quantitative et qualitative à travers des expérimentations étendues sur trois jeux de données publics : Places2, CelebA et Paris StreetView.