Command Palette

Search for a command to run...

14 天前

从1,000个词生成一张图像:通过结构化描述增强文本到图像生成

从1,000个词生成一张图像:通过结构化描述增强文本到图像生成

摘要

文本到图像模型已迅速从休闲创意工具发展为专业级系统,实现了前所未有的图像质量与真实感。然而,大多数模型仅被训练为将简短提示词映射为细节丰富的图像,导致文本输入的稀疏性与视觉输出的丰富性之间存在显著差距。这种不匹配降低了模型的可控性:模型常会随意填补缺失细节,倾向于平均用户偏好,从而限制了其在专业场景中的精确控制能力。为解决这一局限,我们首次训练了一款基于长结构化描述的开源文本到图像模型,其中每个训练样本均标注了相同的一组细粒度属性。该设计极大扩展了表达能力,并实现了对视觉因素的解耦控制。为高效处理长描述,我们提出DimFusion机制——一种无需增加 token 长度即可融合轻量级大语言模型(LLM)中间 token 的融合方法。此外,我们引入了“文本作为瓶颈的重建”(Text-as-a-Bottleneck Reconstruction, TaBR)评估协议。通过评估真实图像在“描述生成-重建”循环中被还原的准确程度,TaBR 能够直接衡量模型的可控性与表达能力,尤其适用于现有评估方法失效的超长文本描述场景。最后,我们通过训练大规模模型 FIBO,充分验证了上述方法的有效性,使该模型在开源模型中实现了最先进的提示词对齐性能。模型权重已公开发布于 https://huggingface.co/briaai/FIBO

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
从1,000个词生成一张图像:通过结构化描述增强文本到图像生成 | 论文 | HyperAI超神经