StyTr2 : Transfert de style d'image avec des Transformers

L'objectif du transfert de style d'image consiste à rendre une image avec des caractéristiques artistiques guidées par une référence de style tout en préservant le contenu original. En raison de la localité inhérente aux réseaux de neurones convolutifs (CNN), il est difficile d'extraire et de conserver l'information globale des images d'entrée. Par conséquent, les méthodes classiques de transfert de style basées sur les réseaux de neurones souffrent d'une représentation biaisée du contenu. Pour remédier à ce problème critique, nous prenons en compte les dépendances à longue portée des images d'entrée dans le cadre du transfert de style d'image en proposant une approche fondée sur les transformateurs, nommée StyTr^2. Contrairement aux transformateurs visuels utilisés pour d'autres tâches de vision, StyTr^2 intègre deux encodeurs transformateurs distincts afin de générer des séquences spécifiques au domaine pour le contenu et le style, respectivement. Ensuite, un décodeur transformateur multi-couches est appliqué pour styliser la séquence de contenu selon la séquence de style. Nous analysons également les limites des méthodes existantes d'encodage des positions et proposons un nouvel encodage des positions, appelé CAPE (Content-Aware Positional Encoding), qui est invariant à l'échelle et mieux adapté aux tâches de transfert de style d'image. Des expériences qualitatives et quantitatives démontrent l'efficacité de l'approche proposée StyTr^2 par rapport aux méthodes les plus avancées basées sur les CNN et les méthodes fondées sur les flux. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/diyiiyiii/StyTR-2.