Command Palette
Search for a command to run...
Sung-Lin Tsai Bo-Lun Huang Yu Ting Shen Cheng Yu Yeo Chiang Tseng Bo-Kai Ruan Wen-Sheng Lien Hong-Han Shuai

摘要
在文本到图像(T2I)生成中,准确的色彩对齐对于时尚、产品可视化和室内设计等应用至关重要。然而,当前的扩散模型在处理细腻且复合的色彩术语(如“蒂芙尼蓝”、“青柠绿”、“热粉红”)时仍存在困难,常常生成与人类意图不符的图像。现有方法依赖于交叉注意力机制的调整、参考图像或微调,但无法系统性地解决色彩描述中的歧义问题。为在提示词存在歧义的情况下精确呈现色彩,我们提出了一种无需训练的框架,通过利用大语言模型(LLM)对色彩相关提示进行消歧,并在文本嵌入空间中直接引导色彩混合操作,从而提升色彩保真度。该方法首先使用大语言模型(LLM)解析文本提示中的模糊色彩术语,随后根据这些色彩术语在CIELAB色彩空间中的空间关系,对文本嵌入进行优化。与以往方法不同,本方法在无需额外训练或外部参考图像的前提下,显著提升了色彩准确性。实验结果表明,所提框架在不损害图像质量的情况下有效改善了色彩对齐,弥合了文本语义与视觉生成之间的鸿沟。