Attention Sémantique Cohérente pour le Remplissage d'Images

Les dernières approches basées sur l'apprentissage profond ont montré des résultats prometteurs pour la tâche difficile de l'inpainting des régions manquantes d'une image. Cependant, les méthodes existantes génèrent souvent des contenus avec des textures floues et des structures déformées en raison de la discontinuité des pixels locaux. D'un point de vue sémantique, cette discontinuité locale est principalement due au fait que ces méthodes ignorent la pertinence sémantique et la continuité des caractéristiques des régions trouées. Pour résoudre ce problème, nous avons étudié le comportement humain dans la réparation d'images et proposé une approche basée sur un modèle génératif profond amélioré avec une nouvelle couche d'attention sémantique cohérente (CSA), qui non seulement préserve la structure contextuelle mais permet également des prédictions plus efficaces des parties manquantes en modélisant la pertinence sémantique entre les caractéristiques des trous. La tâche est divisée en deux étapes : une étape grossière et une étape de raffinement, chacune étant modélisée par un réseau neuronal sous l'architecture U-Net, où la couche CSA est intégrée dans l'encodeur de l'étape de raffinement. Pour stabiliser le processus d'entraînement du réseau et favoriser l'apprentissage de paramètres plus efficaces par la couche CSA, nous proposons une perte de cohérence pour obliger à la fois la couche CSA et la couche correspondante du décodeur CSA à être proches de la couche de caractéristiques VGG d'une image de référence simultanément. Les expériences menées sur les jeux de données CelebA, Places2 et Paris StreetView ont validé l'efficacité de notre méthode proposée dans les tâches d'inpainting d'images et peuvent obtenir des images de meilleure qualité comparativement aux approches les plus avancées actuellement disponibles.