HyperAIHyperAI
il y a 9 jours

Transformations contextuelles agrégées pour le remplissage d’images haute résolution

Yanhong Zeng, Jianlong Fu, Hongyang Chao, Baining Guo
Transformations contextuelles agrégées pour le remplissage d’images haute résolution
Résumé

Les approches de pointe en restauration d’images (image inpainting) peuvent souffrir de la génération de structures déformées et de textures floues dans les images haute résolution (par exemple, 512×512). Ces difficultés proviennent principalement de deux défis : (1) le raisonnement sur le contenu de l’image à partir de contextes éloignés, et (2) la synthèse fine de textures pour des régions manquantes importantes. Pour surmonter ces deux défis, nous proposons un modèle amélioré basé sur un GAN, nommé Aggregated COntextual-Transformation GAN (AOT-GAN), dédié à la restauration d’images haute résolution. Plus précisément, pour renforcer le raisonnement contextuel, nous construisons le générateur d’AOT-GAN en empilant plusieurs couches d’un nouveau bloc appelé AOT. Ces blocs AOT agrègent des transformations contextuelles issues de champs réceptifs variés, permettant ainsi de capturer à la fois les contextes éloignés informatifs et les motifs riches pertinents pour le raisonnement contextuel. Pour améliorer la synthèse de textures, nous améliorons le discriminateur d’AOT-GAN en l’entraînant sur une tâche de prédiction de masque adaptée. Cette objectif d’entraînement oblige le discriminateur à distinguer les détails visuels entre les patches réels et ceux synthétisés, ce qui, en retour, favorise le générateur pour produire des textures plus nettes. Des comparaisons étendues sur le jeu de données Places2, le benchmark le plus exigeant comprenant 1,8 million d’images haute résolution représentant 365 scènes complexes, montrent que notre modèle dépasse de manière significative l’état de l’art en termes d’indice FID, avec une amélioration relative de 38,60 %. Une étude utilisateur impliquant plus de 30 participants confirme également la supériorité d’AOT-GAN. Nous évaluons également le modèle AOT-GAN dans des applications pratiques, telles que la suppression de logos, l’édition de visages et la suppression d’objets. Les résultats démontrent que notre modèle parvient à des reconstructions prometteuses dans des situations réelles. Nous mettons à disposition le code source et les modèles sur https://github.com/researchmm/AOT-GAN-for-Inpainting.