Command Palette

Search for a command to run...

13日前

色を正しく表現する:知覚色空間とテキスト埋め込みを橋渡しすることで、拡散生成を改善する

Sung-Lin Tsai Bo-Lun Huang Yu Ting Shen Cheng Yu Yeo Chiang Tseng Bo-Kai Ruan Wen-Sheng Lien Hong-Han Shuai

色を正しく表現する:知覚色空間とテキスト埋め込みを橋渡しすることで、拡散生成を改善する

要約

テキストから画像(T2I)生成における正確な色のアライメントは、ファッション、製品ビジュアライゼーション、インテリアデザインなどの分野において極めて重要である。しかし、現在の拡散モデルは、Tiffanyブルー、ライムグリーン、ホットピンクなど、複雑で多義的な色の表現に対しては難しく、人間の意図と一致しない画像を生成しがちである。従来のアプローチは、クロスアテンションの操作や参照画像、ファインチューニングに依存しているが、曖昧な色の記述を体系的に解決することができない。本研究では、プロンプトの曖昧さ下でも正確に色を再現するため、学習不要のフレームワークを提案する。本手法は、大規模言語モデル(LLM)を活用して色関連のプロンプトを曖昧さを解消し、テキスト埋め込み空間上で色のブレンド操作を直接制御することで、色の忠実度を向上させる。具体的には、まず大規模言語モデル(LLM)を用いてテキストプロンプト内の曖昧な色表現を解釈し、次にCIELAB色空間における色の空間的関係に基づいてテキスト埋め込みを精緻化する。従来の手法とは異なり、本アプローチは追加の学習や外部の参照画像を必要とせずに、色の正確性を向上させることができる。実験結果から、本フレームワークは画像品質を損なうことなく色のアライメントを改善し、テキストの意味と視覚的生成の間のギャップを埋めることに成功した。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
色を正しく表現する:知覚色空間とテキスト埋め込みを橋渡しすることで、拡散生成を改善する | 論文 | HyperAI超神経