17 天前

Muse：通过掩码生成式Transformer实现文本到图像生成

Huiwen Chang, Han Zhang, Jarred Barber, AJ Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T. Freeman, Michael Rubinstein, Yuanzhen Li, Dilip Krishnan

查看论文详情

摘要

我们提出Muse，一种文本到图像的Transformer模型，在实现当前最优图像生成性能的同时，相比扩散模型或自回归模型具有显著更高的效率。Muse在离散标记空间中通过掩码建模任务进行训练：给定从预训练大语言模型（LLM）提取的文本嵌入，Muse被训练以预测随机掩码的图像标记。与基于像素空间的扩散模型（如Imagen和DALL-E 2）相比，由于采用离散标记并减少采样迭代次数，Muse具有更高的效率；与自回归模型（如Parti）相比，Muse通过并行解码机制也展现出更高的效率。借助预训练大语言模型，Muse具备细粒度的语言理解能力，从而实现高保真图像生成，并能准确理解视觉概念，如物体、空间关系、姿态、数量等。我们的9亿参数模型在CC3M数据集上达到新的SOTA（最先进）水平，FID得分为6.06；30亿参数的Muse模型在零样本COCO评估中取得7.88的FID分数，同时获得0.32的CLIP分数。此外，Muse无需微调或模型反演即可直接支持多种图像编辑应用，包括图像修复（inpainting）、图像扩展（outpainting）以及无掩码编辑（mask-free editing）。更多结果请见：https://muse-model.github.io