Harmonisation d’image dynamique hiérarchique

L’harmonisation d’images est une tâche fondamentale en vision par ordinateur, visant à ajuster le premier plan afin qu’il soit cohérent avec le fond. Les travaux récents se concentrent principalement sur l’utilisation de transformations globales (par exemple, normalisation et ajustement des courbes de couleur) pour atteindre une cohérence visuelle. Toutefois, ces modèles négligent la cohérence visuelle locale, et leur taille importante limite leur capacité d’harmonisation sur les dispositifs à faible puissance. Dans ce papier, nous proposons un réseau hiérarchique dynamique (HDNet) pour adapter les caractéristiques du local au global, afin d’améliorer la transformation des caractéristiques dans une harmonisation d’images efficace. Inspirés par le succès des modèles dynamiques, nous introduisons deux modules : un module dynamique local (LD) et un module dynamique global conscient du masque (MGD). Plus précisément, le module LD établit une correspondance entre les représentations locales du premier plan et celles du fond en fonction de leurs similitudes sémantiques, puis ajuste de manière adaptative chaque représentation locale du premier plan en fonction de l’apparence de ses $K$ régions voisines du fond. Ainsi, le module LD permet de produire des images plus réalistes à un niveau plus fin, tout en conservant la caractéristique d’alignement sémantique. Le module MGD applique efficacement des convolutions distinctes au premier plan et au fond, apprenant ainsi les représentations des régions du premier plan et du fond ainsi que leurs corrélations pour l’harmonisation globale, ce qui favorise de manière beaucoup plus efficace la cohérence visuelle locale. Les résultats expérimentaux montrent que le HDNet réduit de plus de 80 % le nombre total de paramètres par rapport aux méthodes précédentes, tout en atteignant des performances de pointe sur le jeu de données populaire iHarmony4. Notamment, le HDNet améliore de 4 % la PSNR et réduit de 19 % l’erreur quadratique moyenne (MSE) par rapport aux méthodes les plus avancées précédemment publiées.