Harmonizer : Apprendre à Réaliser l’Harmonisation Blanche d’Images et de Vidéos

Les travaux récents sur l'harmonisation d'images abordent le problème comme une tâche de traduction d'image au niveau des pixels via de grands autoencodeurs. Ces méthodes présentent des performances insatisfaisantes et des vitesses d'inférence lentes lorsqu'elles traitent des images à haute résolution. Dans cette étude, nous constatons que l'ajustement des paramètres d'entrée des filtres d'image de base, par exemple la luminosité et le contraste, est suffisant pour permettre aux humains de produire des images réalistes à partir d'images composites. Par conséquent, nous formulons l'harmonisation d'images comme un problème de régression au niveau de l'image pour apprendre les paramètres des filtres utilisés par les humains dans cette tâche. Nous présentons un cadre appelé Harmonizer pour l'harmonisation d'images. Contrairement aux méthodes précédentes basées sur des autoencodeurs en boîte noire, Harmonizer comprend un réseau neuronal pour prédire les paramètres des filtres et plusieurs filtres en boîte blanche (basés sur les paramètres prédits) pour l'harmonisation d'images. Nous introduisons également un régresseur en cascade et une stratégie de perte dynamique pour que Harmonizer apprenne les paramètres des filtres de manière plus stable et précise. Étant donné que notre réseau ne produit que des paramètres au niveau de l'image et que les filtres que nous utilisons sont efficaces, Harmonizer est beaucoup plus léger et rapide que les méthodes existantes. Des expériences approfondies montrent que Harmonizer dépasse nettement les méthodes existantes, particulièrement avec des entrées à haute résolution. Enfin, nous appliquons Harmonizer à l'harmonisation vidéo, ce qui permet d'obtenir des résultats cohérents entre les trames et une vitesse de 56 images par seconde à une résolution de 1080P. Le code source et les modèles sont disponibles à : https://github.com/ZHKKKe/Harmonizer.