17 天前

具有深度语言理解能力的逼真文本到图像扩散模型

{Mohammad Norouzi, David J Fleet, Jonathan Ho, Tim Salimans, Rapha Gontijo Lopes, S. Sara Mahdavi, Burcu Karagol Ayan, Seyed Kamyar Seyed Ghasemipour, Emily Denton, Jay Whang, Lala Li, Saurabh Saxena, William Chan, Chitwan Saharia}
具有深度语言理解能力的逼真文本到图像扩散模型
摘要

我们提出 Imagen,这是一种文本到图像的扩散模型,具备前所未有的逼真度和深层次的语言理解能力。Imagen 充分利用了大型 Transformer 语言模型在文本理解方面的强大能力,并依托扩散模型在高保真图像生成方面的优势。我们的关键发现是:仅在纯文本语料上预训练的通用大型语言模型(如 T5)在图像合成中的文本编码方面表现出令人惊讶的高效性——在 Imagen 中,增大语言模型的规模所带来的样本保真度提升和图像-文本对齐效果,远超单纯扩大图像扩散模型规模所带来的收益。Imagen 在 COCO 数据集上实现了 7.27 的全新 SOTA(最先进)FID 分数,且从未在 COCO 数据上进行过训练;人工评估结果显示,Imagen 生成的图像在图像-文本对齐方面与 COCO 原始数据相当。为更深入地评估文本到图像模型,我们推出了 DrawBench,这是一个全面且具有挑战性的文本到图像模型基准测试平台。借助 DrawBench,我们将 Imagen 与近期多种方法(包括 VQ-GAN+CLIP、潜空间扩散模型 Latent Diffusion Models 以及 DALL-E 2)进行了对比,结果表明,在并列评估中,人类评判者更倾向于选择 Imagen,无论是在图像质量还是图像-文本对齐方面均表现更优。更多成果详情请参见:https://imagen.research.google/