4 个月前

计算机视觉

Sung-Lin Tsai Bo-Lun Huang Yu Ting Shen Cheng Yu Yeo Chiang Tseng Bo-Kai Ruan Wen-Sheng Lien Hong-Han Shuai

摘要

在文本到图像（T2I）生成中，准确的色彩对齐对于时尚、产品可视化和室内设计等应用至关重要。然而，当前的扩散模型在处理细腻且复合的色彩术语（如“蒂芙尼蓝”、“青柠绿”、“热粉红”）时仍存在困难，常常生成与人类意图不符的图像。现有方法依赖于交叉注意力机制的调整、参考图像或微调，但无法系统性地解决色彩描述中的歧义问题。为在提示词存在歧义的情况下精确呈现色彩，我们提出了一种无需训练的框架，通过利用大语言模型（LLM）对色彩相关提示进行消歧，并在文本嵌入空间中直接引导色彩混合操作，从而提升色彩保真度。该方法首先使用大语言模型（LLM）解析文本提示中的模糊色彩术语，随后根据这些色彩术语在CIELAB色彩空间中的空间关系，对文本嵌入进行优化。与以往方法不同，本方法在无需额外训练或外部参考图像的前提下，显著提升了色彩准确性。实验结果表明，所提框架在不损害图像质量的情况下有效改善了色彩对齐，弥合了文本语义与视觉生成之间的鸿沟。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

4 个月前

计算机视觉

Sung-Lin Tsai Bo-Lun Huang Yu Ting Shen Cheng Yu Yeo Chiang Tseng Bo-Kai Ruan Wen-Sheng Lien Hong-Han Shuai

摘要

在文本到图像（T2I）生成中，准确的色彩对齐对于时尚、产品可视化和室内设计等应用至关重要。然而，当前的扩散模型在处理细腻且复合的色彩术语（如“蒂芙尼蓝”、“青柠绿”、“热粉红”）时仍存在困难，常常生成与人类意图不符的图像。现有方法依赖于交叉注意力机制的调整、参考图像或微调，但无法系统性地解决色彩描述中的歧义问题。为在提示词存在歧义的情况下精确呈现色彩，我们提出了一种无需训练的框架，通过利用大语言模型（LLM）对色彩相关提示进行消歧，并在文本嵌入空间中直接引导色彩混合操作，从而提升色彩保真度。该方法首先使用大语言模型（LLM）解析文本提示中的模糊色彩术语，随后根据这些色彩术语在CIELAB色彩空间中的空间关系，对文本嵌入进行优化。与以往方法不同，本方法在无需额外训练或外部参考图像的前提下，显著提升了色彩准确性。实验结果表明，所提框架在不损害图像质量的情况下有效改善了色彩对齐，弥合了文本语义与视觉生成之间的鸿沟。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供