17 天前
StyleGAN-T:释放GAN在快速大规模文本到图像合成中的潜力
Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila

摘要
近年来,得益于大规模预训练语言模型、大规模训练数据以及扩散模型和自回归模型等可扩展模型家族的引入,文本到图像生成技术取得了显著进展。然而,当前表现最佳的模型在生成单个图像样本时仍需进行多次迭代评估,效率较低。相比之下,生成对抗网络(GANs)仅需一次前向传播即可完成生成,因此速度更快,但在大规模文本到图像合成任务中,其性能仍远落后于当前最先进水平。本文旨在识别恢复GAN在该领域竞争力所需的关键步骤。我们提出的StyleGAN-T模型,针对大规模文本到图像合成的特定需求进行了优化,包括大容量、在多样化数据集上的稳定训练、强文本对齐能力,以及可控的变异性与文本对齐之间的权衡。实验结果表明,StyleGAN-T在图像生成质量与速度方面均显著优于以往的GAN模型,并在快速文本到图像合成任务中超越了此前的最先进方法——蒸馏后的扩散模型。