Amélioration de la restauration d'images par un retour sur l'agrégation d'informations globales

Les opérations globales, telles que la mise en pool moyenne globale, sont largement utilisées dans les restaurateurs d'images de haut niveau. Ces opérations agrègent des informations globales à partir des caractéristiques d'entrée le long de toute la dimension spatiale, mais elles se comportent différemment lors de l'entraînement et de l'inférence dans les tâches de restauration d'images : elles sont basées sur différentes régions, à savoir les patches découpés (à partir d'images) et les images en pleine résolution. Cet article réexamine l'agrégation d'informations globales et constate que les caractéristiques basées sur les images pendant l'inférence ont une distribution différente des caractéristiques basées sur les patches pendant l'entraînement. Cette incohérence entre l'entraînement et le test affecte négativement les performances des modèles, un aspect sévèrement négligé par les travaux précédents. Pour réduire cette incohérence et améliorer les performances en temps de test, nous proposons une méthode simple appelée Convertisseur Local en Temps de Test (TLC). Notre TLC convertit les opérations globales en opérations locales uniquement pendant l'inférence, afin qu'elles agrègent des caractéristiques au sein de régions spatiales locales plutôt que sur l'intégralité des grandes images. La méthode proposée peut être appliquée à divers modules globaux (par exemple, la normalisation, l'attention canal et spatiale) avec des coûts négligeables. Sans nécessiter aucun affinage, TLC améliore les résultats de pointe sur plusieurs tâches de restauration d'images, notamment le défloutage du mouvement pour une seule image, le défloutage vidéo, le défloutage hors focus et le débruitage d'image. En particulier, avec TLC, notre Restormer-Local améliore le résultat de pointe en défloutage d'une seule image de 32,92 dB à 33,57 dB sur le jeu de données GoPro. Le code est disponible à l'adresse suivante : https://github.com/megvii-research/tlc.