17 天前
你只需对抗性监督即可实现语义图像合成
Vadim Sushko, Edgar Schönfeld, Dan Zhang, Juergen Gall, Bernt Schiele, Anna Khoreva

摘要
尽管近年来生成对抗网络(GAN)在语义图像合成任务中取得了显著进展,但在仅依赖对抗性监督进行训练时,其生成图像的质量仍存在不足。历史上,引入基于VGG的感知损失(perceptual loss)在一定程度上缓解了这一问题,显著提升了合成图像的质量,但同时也制约了GAN模型在语义图像合成方向的进一步发展。在本工作中,我们提出一种新颖且简化的GAN模型,仅通过对抗性监督即可实现高质量的图像生成。我们重新设计了判别器,将其构造成一个语义分割网络,并直接将给定的语义标签图(label maps)作为训练的真值(ground truth)。通过引入具有空间与语义感知能力的判别器反馈机制,我们为判别器和生成器提供了更强的监督信号,从而实现了与输入标签图更高保真度、更精准对齐的图像合成,使得感知损失的使用变得不再必要。此外,我们通过在生成器中注入三维噪声张量并结合全局与局部采样策略,实现了高质量的多模态图像合成,支持图像的完整或局部修改。实验表明,本模型生成的图像具有更高的多样性,并更准确地遵循真实图像的颜色与纹理分布特征。在多个数据集上,仅使用对抗性监督,我们的方法相比当前最优技术平均提升了6个FID分数和5个mIoU分数。