
摘要
生成对抗网络(GANs)结合自监督学习任务在无条件与半监督图像生成方面已展现出显著成效。本文提出一种新的自监督方法——LT-GAN,通过估计由生成器潜在空间扰动所引发的GAN诱导变换(即潜在空间扰动在生成图像中产生的变换),从而提升图像生成的质量与多样性。具体而言,给定两组图像对,每组包含一张生成图像及其对应的变换版本,该自监督任务的目标是判断两组图像中所应用的潜在空间变换是否一致。这一辅助任务促使生成器产生能够被辅助网络有效区分的图像,进而推动生成图像在语义上与潜在空间变换保持一致性。我们在CIFAR-10、CelebA-HQ和ImageNet等多个数据集上,针对条件与无条件生成设置,对当前最先进的模型进行了实验验证,结果表明该预训练任务显著提升了图像生成质量,尤其在FID(Fréchet Inception Distance)指标上表现优异。此外,我们通过实验证明,相较于基线模型,LT-GAN在CelebA-HQ与ImageNet数据集上的可控图像编辑任务中亦具有明显优势。进一步实验表明,所提出的LT自监督任务可与多种前沿训练技术有效结合,带来协同增益。综上所述,本方法在条件生成任务中取得了新的最先进性能,在CIFAR-10数据集上实现了9.8的FID得分,刷新了该任务的当前最优记录。