Transfert de style basé sur l'inversion avec des modèles de diffusion

Le style artistique d’un tableau constitue le moyen d’expression, englobant non seulement les matériaux peinture, les couleurs et les traits de pinceau, mais aussi des attributs de haut niveau tels que les éléments sémantiques et les formes des objets. Les méthodes précédentes de génération d’images artistiques guidées par des exemples arbitraires ont souvent échoué à contrôler précisément les variations de forme ou à transmettre fidèlement les éléments stylistiques. Bien que les modèles pré-entraînés de synthèse image par diffusion basés sur le texte aient atteint une qualité remarquable, ils nécessitent souvent des descriptions textuelles très détaillées pour représenter avec précision les attributs spécifiques d’un tableau. Nous pensons que l’originalité d’une œuvre d’art réside précisément dans le fait qu’elle ne peut pas être pleinement rendue par un langage ordinaire. Notre idée centrale consiste à apprendre directement le style artistique à partir d’un seul tableau, puis à guider la synthèse sans recourir à des descriptions textuelles complexes. Plus précisément, nous considérons le style comme une description textuelle apprenable d’un tableau. Nous proposons une méthode de transfert de style basée sur l’inversion (InST), capable d’extraire efficacement et précisément les informations clés d’une image, permettant ainsi de capturer et de transférer fidèlement le style artistique d’un tableau. Nous démontrons la qualité et l’efficacité de notre méthode sur un large éventail de tableaux provenant de divers artistes et styles. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/zyxElsa/InST.