Command Palette
Search for a command to run...
Farbe richtig vermitteln: Brückenschlag zwischen wahrnehmungsbasierten Farbräumen und Text-Embeddings für verbesserte Diffusionsgenerierung
Sung-Lin Tsai Bo-Lun Huang Yu Ting Shen Cheng Yu Yeo Chiang Tseng Bo-Kai Ruan Wen-Sheng Lien Hong-Han Shuai

Abstract
Genauigkeit der Farbzuordnung bei der Text-zu-Bild-(T2I)-Generierung ist für Anwendungen wie Mode, Produktvisualisierung und Innenarchitektur von entscheidender Bedeutung. Derzeitige Diffusionsmodelle stoßen jedoch bei feinabgestuften und zusammengesetzten Farbbezeichnungen (z. B. „Tiffany-Blau“, „Limegrün“, „Hot Pink“) auf Schwierigkeiten und erzeugen oft Bilder, die von der menschlichen Intention abweichen. Bisherige Ansätze stützen sich auf die Manipulation von Cross-Attention, Referenzbilder oder Feinabstimmung, scheitern jedoch daran, farbliche Unschärfen systematisch zu lösen. Um Farben präzise auch bei unscharfen Prompt-Formulierungen darzustellen, schlagen wir einen trainingsfreien Ansatz vor, der die Farbtreue durch die Nutzung eines großen Sprachmodells (LLM) erhöht, um farbbezogene Prompts zu entwirren, und Farbmischvorgänge direkt im Raum der Text-Embeddings steuert. Unser Verfahren nutzt zunächst ein großes Sprachmodell (LLM), um mehrdeutige Farbbezeichnungen im Textprompt zu klären, und verfeinert anschließend die Text-Embeddings anhand der räumlichen Beziehungen der resultierenden Farbbezeichnungen im CIELAB-Farbraum. Im Gegensatz zu vorherigen Methoden verbessert unser Ansatz die Farbgenauigkeit ohne zusätzliche Trainingsschritte oder externe Referenzbilder. Experimentelle Ergebnisse zeigen, dass unser Framework die Farbzuordnung verbessert, ohne die Bildqualität zu beeinträchtigen, und somit die Lücke zwischen Textsemantik und visueller Generierung schließt.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.