连续条件生成对抗网络:新型经验损失函数与标签输入机制

本文提出了一种连续条件生成对抗网络(Continuous Conditional Generative Adversarial Network, CcGAN),这是首个针对连续标量条件(即回归标签)进行图像生成的生成模型。现有的条件生成对抗网络(Conditional GAN, cGAN)主要针对类别型条件(如类别标签)设计;而基于回归标签的条件生成在数学上具有本质差异,并引出两个根本性问题:(P1) 由于某些回归标签对应的实图像可能极少甚至为零,现有的cGAN损失函数的经验版本(即经验cGAN损失)在实践中往往难以有效优化;(P2) 由于回归标签为标量且取值无限,传统标签输入方法不再适用。为分别解决上述问题,本文提出以下两种策略:(S1) 重新构建现有的经验cGAN损失函数,使其适用于连续条件场景;(S2) 提出一种基础标签输入方法(Naive Label Input, NLI)和一种改进的标签输入方法(Improved Label Input, ILI),用于将回归标签有效融入生成器与判别器中。在(S1)中,所提出的重构方法导出了两种新型的经验判别器损失函数,分别称为硬邻域判别器损失(Hard Vicinal Discriminator Loss, HVDL)和软邻域判别器损失(Soft Vicinal Discriminator Loss, SVDL),以及一种新型的经验生成器损失函数。本文在较弱假设条件下,推导了采用HVDL与SVDL训练的判别器的误差上界。此外,为支持该连续条件场景,本文还构建了两个新的基准数据集(RC-49 和 Cell-200),并提出一种新型评估指标——滑动弗雷歇 inception 距离(Sliding Fréchet Inception Distance, SFID)。在圆形二维高斯分布、RC-49、UTKFace、Cell-200 以及转向角(Steering Angle)等数据集上的实验结果表明,CcGAN能够根据给定的回归标签生成多样化且高质量的图像样本,准确捕捉图像分布的条件特性。在各项实验中,CcGAN无论在视觉效果还是定量指标上,均显著优于传统cGAN模型。