HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la restauration d'images par un retour sur l'agrégation d'informations globales

Xiaojie Chu Liangyu Chen Chengpeng Chen Xin Lu

Résumé

Les opérations globales, telles que la mise en pool moyenne globale, sont largement utilisées dans les restaurateurs d'images de haut niveau. Ces opérations agrègent des informations globales à partir des caractéristiques d'entrée le long de toute la dimension spatiale, mais elles se comportent différemment lors de l'entraînement et de l'inférence dans les tâches de restauration d'images : elles sont basées sur différentes régions, à savoir les patches découpés (à partir d'images) et les images en pleine résolution. Cet article réexamine l'agrégation d'informations globales et constate que les caractéristiques basées sur les images pendant l'inférence ont une distribution différente des caractéristiques basées sur les patches pendant l'entraînement. Cette incohérence entre l'entraînement et le test affecte négativement les performances des modèles, un aspect sévèrement négligé par les travaux précédents. Pour réduire cette incohérence et améliorer les performances en temps de test, nous proposons une méthode simple appelée Convertisseur Local en Temps de Test (TLC). Notre TLC convertit les opérations globales en opérations locales uniquement pendant l'inférence, afin qu'elles agrègent des caractéristiques au sein de régions spatiales locales plutôt que sur l'intégralité des grandes images. La méthode proposée peut être appliquée à divers modules globaux (par exemple, la normalisation, l'attention canal et spatiale) avec des coûts négligeables. Sans nécessiter aucun affinage, TLC améliore les résultats de pointe sur plusieurs tâches de restauration d'images, notamment le défloutage du mouvement pour une seule image, le défloutage vidéo, le défloutage hors focus et le débruitage d'image. En particulier, avec TLC, notre Restormer-Local améliore le résultat de pointe en défloutage d'une seule image de 32,92 dB à 33,57 dB sur le jeu de données GoPro. Le code est disponible à l'adresse suivante : https://github.com/megvii-research/tlc.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp