2 个月前

偏移扩散用于文本到图像生成

Yufan Zhou; Bingchen Liu; Yizhe Zhu; Xiao Yang; Changyou Chen; Jinhui Xu
偏移扩散用于文本到图像生成
摘要

我们介绍了Corgi,一种新颖的文本到图像生成方法。Corgi基于我们提出的偏移扩散模型,该模型在从输入文本生成图像嵌入方面表现出色。与DALL-E 2中使用的基线扩散模型不同,我们的方法通过设计新的初始化分布和扩散过程中的新转换步骤,无缝地将预训练CLIP模型的先验知识编码到其扩散过程中。与强大的DALL-E 2基线相比,我们的方法在从文本生成图像嵌入的效率和效果上均表现更佳,从而实现了更优质的文本到图像生成。我们进行了广泛的大型实验,并从定量指标和人类评估两个方面进行了评价,结果表明我们的方法相较于现有方法具有更强的生成能力。此外,我们的模型支持半监督和无语言训练的文本到图像生成任务,在这些任务中,训练数据集中的部分或全部图像没有对应的标题。仅使用1.7%带有标题的图像进行训练,我们的半监督模型在MS-COCO数据集上的零样本文本到图像生成任务中取得了与DALL-E 2相当的FID结果。Corgi还在下游无语言文本到图像生成任务的不同数据集中取得了最新的最佳结果,在这些任务中显著优于前一方法Lafite。