17 天前
大规模生成对抗网络在文本到图像合成中的应用
Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, Taesung Park

摘要
文本到图像生成技术的近期成功席卷全球,激发了公众的广泛想象。从技术角度看,这一进展也标志着生成图像模型架构的主流范式发生了根本性转变。过去,生成对抗网络(GAN)一直是首选方案,代表性技术如StyleGAN。然而,随着DALL-E 2的推出,自回归模型与扩散模型一夜之间成为大规模生成模型的新标准。这一迅猛转变引发了一个根本性问题:我们能否将GAN架构进行扩展,从而充分利用LAION等大规模数据集的优势?研究发现,简单地提升StyleGAN架构的容量会迅速导致训练不稳定。为此,我们提出了GigaGAN——一种全新的GAN架构,其性能远超此前的容量极限,重新证明了GAN在文本到图像生成任务中的可行性。GigaGAN具有三大显著优势:首先,其推理速度远超以往,仅需0.13秒即可生成一张512像素的图像;其次,能够高效生成高分辨率图像,例如在3.66秒内完成1600万像素(16-megapixel)图像的合成;最后,GigaGAN支持多种潜在空间编辑应用,包括潜在变量插值、风格混合以及向量算术操作等。