HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 13 jours

Color Me Correctly : Rebrancher les espaces colorés perceptifs et les embeddings textuels pour une génération de diffusion améliorée

Sung-Lin Tsai Bo-Lun Huang Yu Ting Shen Cheng Yu Yeo Chiang Tseng Bo-Kai Ruan Wen-Sheng Lien Hong-Han Shuai

Color Me Correctly : Rebrancher les espaces colorés perceptifs et les embeddings textuels pour une génération de diffusion améliorée

Résumé

L’alignement précis des couleurs dans la génération d’images à partir de textes (T2I) est essentiel pour des applications telles que la mode, la visualisation de produits ou le design d’intérieur. Pourtant, les modèles de diffusion actuels peinent à traiter des termes de couleur subtils ou composés (par exemple, « bleu Tiffany », « vert citron », « rose vif »), produisant souvent des images décalées par rapport à l’intention humaine. Les approches existantes s’appuient sur la manipulation de l’attention croisée, l’utilisation d’images de référence ou le fine-tuning, mais elles échouent à résoudre de manière systématique les descriptions de couleur ambigües. Afin de reproduire avec précision les couleurs malgré l’ambiguïté du prompt, nous proposons un cadre d’entraînement libre qui améliore la fidélité des couleurs en exploitant un modèle de langage à grande échelle (LLM) pour débrouiller les prompts liés aux couleurs, et en guidant directement les opérations de mélange de couleurs dans l’espace d’encodage textuel. Notre méthode commence par utiliser un LLM pour clarifier les termes de couleur ambigus présents dans le prompt, puis affine les embeddings textuels en tenant compte des relations spatiales des termes de couleur obtenus dans l’espace colorimétrique CIELAB. Contrairement aux approches antérieures, notre méthode améliore la précision des couleurs sans nécessiter d’entraînement supplémentaire ni d’images de référence externes. Les résultats expérimentaux démontrent que notre cadre améliore l’alignement des couleurs sans compromettre la qualité de l’image, réduisant ainsi l’écart entre le sens sémantique du texte et la génération visuelle.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Color Me Correctly : Rebrancher les espaces colorés perceptifs et les embeddings textuels pour une génération de diffusion améliorée | Articles de recherche | HyperAI