17 天前

Make-A-Scene:基于场景的人类先验文本到图像生成

Oran Gafni, Adam Polyak, Oron Ashual, Shelly Sheynin, Devi Parikh, Yaniv Taigman
Make-A-Scene:基于场景的人类先验文本到图像生成
摘要

近期的文本到图像生成方法实现了文本与图像域之间简单而富有吸引力的转换能力。尽管这些方法在生成图像的保真度和文本相关性方面持续取得进展,但仍存在若干关键性问题尚未解决,限制了其应用范围与生成质量。为此,我们提出了一种新型文本到图像生成方法,旨在弥补上述不足,具体包括:(i)在文本之外引入一种简洁的场景控制机制,实现对生成图像的精准调控;(ii)通过引入针对关键图像区域(如人脸与显著物体)的领域知识,显著优化了图像的分词(tokenization)过程;(iii)将无分类器引导(classifier-free guidance)适配至Transformer架构的使用场景中。所提出的模型在FID指标与人工评估中均达到当前最优水平,成功实现了512×512像素高保真图像的生成,显著提升了视觉质量。借助场景可控性,本方法进一步拓展出多项新能力:(i)场景编辑,(ii)基于锚定场景的文本编辑,(iii)有效应对分布外(out-of-distribution)的文本提示,以及(iv)故事插图生成。这些能力已在我们撰写的故事示例中得到充分验证与展示。