17 天前
TextDiffuser-2:释放语言模型在文本渲染中的潜力
Jingye Chen, Yupan Huang, Tengchao Lv, Lei Cui, Qifeng Chen, Furu Wei

摘要
近年来,扩散模型已被证明是一种强大的生成模型,但在生成视觉文本方面仍面临挑战。已有若干方法通过引入显式的文本位置与内容信息作为引导,以指导文本的生成位置与内容。然而,这些方法仍存在诸多局限,例如灵活性与自动化程度不足、版面预测能力受限,以及风格多样性匮乏等问题。本文提出TextDiffuser-2,旨在充分发挥语言模型在文本渲染中的潜力。首先,我们对大型语言模型进行微调,用于版面规划。该语言模型能够自动为文本渲染生成关键词,并支持通过对话方式对版面进行修改。其次,我们在扩散模型中引入语言模型,以行级粒度对文本位置与内容进行编码。与以往依赖紧密字符级引导的方法不同,该方法能够生成更具多样性的文本图像。我们开展了大量实验,并结合了包含人类参与者及GPT-4V的用户研究,验证了TextDiffuser-2在实现更合理文本布局与生成方面的能力,同时显著提升了生成结果的多样性。相关代码与模型将公开于 \url{https://aka.ms/textdiffuser-2}。