17 天前

用于内容丰富文本到图像生成的自回归模型扩展

Jiahui Yu, Yuanzhong Xu, Jing Yu Koh, Thang Luong, Gunjan Baid, Zirui Wang, Vijay Vasudevan, Alexander Ku, Yinfei Yang, Burcu Karagol Ayan, Ben Hutchinson, Wei Han, Zarana Parekh, Xin Li, Han Zhang, Jason Baldridge, Yonghui Wu
用于内容丰富文本到图像生成的自回归模型扩展
摘要

我们提出Pathways自回归文本到图像生成模型(Parti),该模型能够生成高保真度的逼真图像,并支持包含复杂构图与世界知识的丰富内容合成。Parti将文本到图像生成任务建模为序列到序列的学习问题,类似于机器翻译,但其目标输出为图像标记序列,而非另一种语言的文本标记序列。这一策略可自然地利用大规模语言模型领域中已有的丰富研究成果,而这些模型通过持续扩大数据规模与模型参数量,不断提升其能力与性能。我们的方法简洁明了:首先,Parti采用基于Transformer的图像分词器ViT-VQGAN,将图像编码为离散标记序列;其次,通过将编码器-解码器Transformer模型扩展至200亿参数规模,实现了稳定的质量提升,在MS-COCO数据集上达到了7.23的零样本FID得分与3.22的微调后FID得分,创下当前最优水平。通过对“局部叙事”(Localized Narratives)数据集以及PartiPrompts(P2)——一个包含超过1600个英文提示的综合性新基准——的深入分析,我们验证了Parti在多种类别与不同难度任务中的卓越表现。同时,我们也系统探讨并指出了当前模型存在的局限性,以明确未来改进的关键方向。更多高分辨率生成图像请访问:https://parti.research.google/

用于内容丰富文本到图像生成的自回归模型扩展 | 最新论文 | HyperAI超神经