Command Palette
Search for a command to run...
Sung-Lin Tsai Bo-Lun Huang Yu Ting Shen Cheng Yu Yeo Chiang Tseng Bo-Kai Ruan Wen-Sheng Lien Hong-Han Shuai

要約
テキストから画像(T2I)生成における正確な色のアライメントは、ファッション、製品ビジュアライゼーション、インテリアデザインなどの分野において極めて重要である。しかし、現在の拡散モデルは、Tiffanyブルー、ライムグリーン、ホットピンクなど、複雑で多義的な色の表現に対しては難しく、人間の意図と一致しない画像を生成しがちである。従来のアプローチは、クロスアテンションの操作や参照画像、ファインチューニングに依存しているが、曖昧な色の記述を体系的に解決することができない。本研究では、プロンプトの曖昧さ下でも正確に色を再現するため、学習不要のフレームワークを提案する。本手法は、大規模言語モデル(LLM)を活用して色関連のプロンプトを曖昧さを解消し、テキスト埋め込み空間上で色のブレンド操作を直接制御することで、色の忠実度を向上させる。具体的には、まず大規模言語モデル(LLM)を用いてテキストプロンプト内の曖昧な色表現を解釈し、次にCIELAB色空間における色の空間的関係に基づいてテキスト埋め込みを精緻化する。従来の手法とは異なり、本アプローチは追加の学習や外部の参照画像を必要とせずに、色の正確性を向上させることができる。実験結果から、本フレームワークは画像品質を損なうことなく色のアライメントを改善し、テキストの意味と視覚的生成の間のギャップを埋めることに成功した。