Transfert de style d’image arbitraire amélioré par domaine via l’apprentissage contrastif

Dans ce travail, nous abordons le problème difficile du transfert de style d’image arbitraire en proposant une nouvelle méthode d’apprentissage de représentation des caractéristiques de style. Une représentation de style adéquate, en tant que composant clé des tâches de stylisation d’image, est essentielle pour obtenir des résultats satisfaisants. Les approches basées sur les réseaux neuronaux profonds existantes parviennent à des résultats raisonnables grâce à la guidance fournie par des statistiques d’ordre deux, telles que la matrice de Gram des caractéristiques du contenu. Toutefois, elles n’exploitent pas suffisamment l’information de style, ce qui entraîne des artefacts tels que des distorsions locales et une incohérence de style. Pour remédier à ces limitations, nous proposons d’apprendre directement la représentation de style à partir des caractéristiques d’image, plutôt que à partir de leurs statistiques d’ordre deux, en analysant les similarités et différences entre plusieurs styles tout en tenant compte de la distribution de style. Plus précisément, nous introduisons CAST (Contrastive Arbitrary Style Transfer), une nouvelle méthode d’apprentissage de représentation de style et de transfert de style fondée sur l’apprentissage contrastif. Notre architecture repose sur trois composants clés : un projecteur de style multi-couches pour le codage du code de style, un module d’amélioration de domaine pour une apprentissage efficace de la distribution de style, et un réseau générateur pour le transfert de style d’image. Nous menons des évaluations qualitatives et quantitatives approfondies, démontrant que notre approche obtient des résultats significativement supérieurs à ceux des méthodes de pointe actuelles. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/zyxElsa/CAST_pytorch