17 天前
Muse:通过掩码生成式Transformer实现文本到图像生成
Huiwen Chang, Han Zhang, Jarred Barber, AJ Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T. Freeman, Michael Rubinstein, Yuanzhen Li, Dilip Krishnan

摘要
我们提出Muse,一种文本到图像的Transformer模型,在实现当前最优图像生成性能的同时,相比扩散模型或自回归模型具有显著更高的效率。Muse在离散标记空间中通过掩码建模任务进行训练:给定从预训练大语言模型(LLM)提取的文本嵌入,Muse被训练以预测随机掩码的图像标记。与基于像素空间的扩散模型(如Imagen和DALL-E 2)相比,由于采用离散标记并减少采样迭代次数,Muse具有更高的效率;与自回归模型(如Parti)相比,Muse通过并行解码机制也展现出更高的效率。借助预训练大语言模型,Muse具备细粒度的语言理解能力,从而实现高保真图像生成,并能准确理解视觉概念,如物体、空间关系、姿态、数量等。我们的9亿参数模型在CC3M数据集上达到新的SOTA(最先进)水平,FID得分为6.06;30亿参数的Muse模型在零样本COCO评估中取得7.88的FID分数,同时获得0.32的CLIP分数。此外,Muse无需微调或模型反演即可直接支持多种图像编辑应用,包括图像修复(inpainting)、图像扩展(outpainting)以及无掩码编辑(mask-free editing)。更多结果请见:https://muse-model.github.io