Command Palette
Search for a command to run...
Color Me Correctly : Rebrancher les espaces colorés perceptifs et les embeddings textuels pour une génération de diffusion améliorée
Sung-Lin Tsai Bo-Lun Huang Yu Ting Shen Cheng Yu Yeo Chiang Tseng Bo-Kai Ruan Wen-Sheng Lien Hong-Han Shuai

Résumé
L’alignement précis des couleurs dans la génération d’images à partir de textes (T2I) est essentiel pour des applications telles que la mode, la visualisation de produits ou le design d’intérieur. Pourtant, les modèles de diffusion actuels peinent à traiter des termes de couleur subtils ou composés (par exemple, « bleu Tiffany », « vert citron », « rose vif »), produisant souvent des images décalées par rapport à l’intention humaine. Les approches existantes s’appuient sur la manipulation de l’attention croisée, l’utilisation d’images de référence ou le fine-tuning, mais elles échouent à résoudre de manière systématique les descriptions de couleur ambigües. Afin de reproduire avec précision les couleurs malgré l’ambiguïté du prompt, nous proposons un cadre d’entraînement libre qui améliore la fidélité des couleurs en exploitant un modèle de langage à grande échelle (LLM) pour débrouiller les prompts liés aux couleurs, et en guidant directement les opérations de mélange de couleurs dans l’espace d’encodage textuel. Notre méthode commence par utiliser un LLM pour clarifier les termes de couleur ambigus présents dans le prompt, puis affine les embeddings textuels en tenant compte des relations spatiales des termes de couleur obtenus dans l’espace colorimétrique CIELAB. Contrairement aux approches antérieures, notre méthode améliore la précision des couleurs sans nécessiter d’entraînement supplémentaire ni d’images de référence externes. Les résultats expérimentaux démontrent que notre cadre améliore l’alignement des couleurs sans compromettre la qualité de l’image, réduisant ainsi l’écart entre le sens sémantique du texte et la génération visuelle.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.