Suppression des Réflexions dans une Image Unique en Exploitant des Données d'Entraînement Non Alignées et des Améliorations du Réseau

La suppression des réflexions indésirables à partir d'une seule image capturée à travers une vitre est d'une importance pratique pour les systèmes de calcul visuel. Bien que les méthodes de pointe puissent obtenir des résultats satisfaisants dans certaines situations, leurs performances diminuent considérablement lorsqu'elles sont confrontées à des cas plus généraux du monde réel. Ces échecs proviennent de la difficulté intrinsèque de la suppression des réflexions dans une seule image -- l'impossibilité fondamentale de bien poser le problème et l'insuffisance de données d'entraînement étiquetées de manière dense nécessaires pour résoudre cette ambiguïté au sein des pipelines de réseau neuronal basés sur l'apprentissage. Dans cet article, nous abordons ces problèmes en exploitant des améliorations ciblées du réseau et un usage novateur des données mal alignées. Pour le premier aspect, nous enrichissons une architecture de réseau de base en intégrant des modules d'encodage contextuel capables d'utiliser des indices contextuels de haut niveau pour réduire l'indétermination dans les zones contenant des réflexions fortes. Pour le second aspect, nous introduisons une fonction de perte invariante à l'alignement qui facilite l'utilisation de données d'entraînement réelles mal alignées, beaucoup plus faciles à collecter. Les résultats expérimentaux montrent collectivement que notre méthode surpasses les méthodes actuelles avec des données alignées, et qu'il est possible d'obtenir des améliorations significatives en utilisant des données mal alignées supplémentaires.