PCT-Net : Harmonisation d’images à résolution complète en utilisant des transformations de couleur par pixel

Dans cet article, nous présentons PCT-Net, une méthode simple et générale d’harmonisation d’images pouvant être facilement appliquée aux images à résolution pleine. L’idée centrale consiste à apprendre un réseau de paramètres qui utilise des images d’entrée sous-échantillonnées pour prédire les paramètres des transformations de couleur ponctuelles (PCT, pixel-wise color transforms) appliquées à chaque pixel de l’image à résolution complète. Nous démontrons que les transformations affines de couleur sont à la fois efficaces et performantes, conduisant à des résultats d’harmonisation de pointe. En outre, nous explorons l’utilisation de réseaux de neurones convolutifs (CNN) et de Transformers comme architecture de réseau de paramètres, et montrons que les Transformers permettent d’obtenir des résultats supérieurs. Nous évaluons la méthode proposée sur le jeu de données public à résolution pleine iHarmony4, composé de quatre sous-ensembles, et obtenons une réduction de plus de 20 % des erreurs quadratiques moyennes sur le foreground (fMSE) et de l’erreur quadratique moyenne globale (MSE), ainsi qu’une augmentation de 1,4 dB du PSNR, tout en maintenant une architecture légère. Dans une étude utilisateur impliquant 20 participants, nous montrons que notre méthode obtient un score B-T supérieur à deux autres méthodes récentes.