Command Palette
Search for a command to run...
Un Style Vaut Un Code : Déverrouiller la Génération d'Images Code-to-Style avec un Espace de Style Discret
Huijie Liu Shuhao Cui Haoxiang Cao Shuai Ma Kai Wu Guoliang Kang

Résumé
La stylisation visuelle innovante constitue une pierre angulaire de la création artistique, mais la génération de styles visuels nouveaux et cohérents demeure un défi majeur. Les approches génératives existantes s’appuient généralement sur des prompts textuels longs, des images de référence ou un fine-tuning à faible coût en paramètres pour guider la génération d’images sensibles au style, mais elles peinent souvent à assurer une cohérence stylistique, présentent une créativité limitée et traitent difficilement des représentations stylistiques complexes. Dans cet article, nous affirmons qu’un style vaut un code numérique en introduisant une nouvelle tâche : la génération d’images à partir d’un code stylistique numérique, qui produit des images présentant des styles visuels nouveaux et cohérents conditionnés uniquement par un code numérique. À ce jour, ce domaine n’a été exploré de manière significative que par l’industrie (par exemple, Midjourney), sans contributions ouvertes provenant de la communauté académique. Pour combler cet écart, nous proposons CoTyle, la première méthode open-source dédiée à cette tâche. Plus précisément, nous entraînons d’abord un codebook discret à partir d’une collection d’images afin d’extraire des embeddings stylistiques. Ces embeddings servent de conditions à un modèle de diffusion texte-à-image (T2I-DM) pour générer des images stylistiques. Ensuite, nous entraînons un générateur autoregressif sur les embeddings discrets pour modéliser leur distribution, permettant ainsi la synthèse d’embeddings stylistiques nouveaux. Lors de l’inférence, un code numérique est transformé en un embedding stylistique unique par le générateur de style, qui guide ensuite le T2I-DM à produire des images dans le style correspondant. Contrairement aux méthodes existantes, notre approche offre une simplicité et une diversité inégalées, ouvrant ainsi un vaste espace de styles reproductibles à partir d’une entrée minimale. Des expériences étendues montrent que CoTyle permet efficacement de transformer un code numérique en contrôleur de style, démontrant ainsi qu’un style vaut bien un code.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.