Aggrégation résiduelle contextuelle pour le remplissage d’images à ultra-haute résolution

Récemment, les méthodes d’image inpainting pilotées par les données ont réalisé des progrès remarquables, influençant des tâches fondamentales de traitement d’image telles que la suppression d’objets ou la réparation d’images endommagées. Bien que ces méthodes soient plus efficaces que les approches classiques, leurs performances sont limitées par la mémoire, ce qui ne leur permet de traiter que des entrées à faible résolution, généralement inférieures à 1K. Parallèlement, la résolution des photos prises par les appareils mobiles atteint désormais jusqu’à 8K. L’application naïve d’un up-sampling sur le résultat d’inpainting à faible résolution ne produit qu’un résultat agrandi mais flou. En revanche, l’ajout d’une image résiduelle à haute fréquence à l’image floue agrandie permet d’obtenir un résultat net, riche en détails et en textures. Motivés par cette observation, nous proposons un mécanisme de regroupement résiduel contextuel (Contextual Residual Aggregation, CRA), capable de générer des résidus à haute fréquence pour les contenus manquants en agrégeant pondérément les résidus provenant de patches contextuels, nécessitant ainsi uniquement une prédiction à faible résolution du réseau. Étant donné que les couches convolutionnelles du réseau n’ont à traiter que des entrées et sorties à faible résolution, la consommation mémoire et le coût de calcul sont ainsi fortement réduits. En outre, la nécessité de jeux de données d’entraînement à haute résolution est atténuée. Dans nos expériences, nous entraînons le modèle proposé sur des images de petite taille (512×512) et effectuons l’inférence sur des images à haute résolution, obtenant une qualité d’inpainting remarquable. Notre modèle est capable de traiter des images jusqu’à 8K avec des trous de taille significative, une tâche inabordable par les approches précédentes basées sur l’apprentissage. Nous détaillons également la conception légère de l’architecture du réseau, permettant une performance en temps réel sur des images de 2K avec une GPU GTX 1080 Ti. Le code source est disponible à l’adresse suivante : Atlas200dk/sample-imageinpainting-HiFill.