6 个月前

摘要

尽管近年来生成对抗网络（GAN）在语义图像合成任务中取得了显著进展，但在仅依赖对抗性监督进行训练时，其生成图像的质量仍存在不足。历史上，引入基于VGG的感知损失（perceptual loss）在一定程度上缓解了这一问题，显著提升了合成图像的质量，但同时也制约了GAN模型在语义图像合成方向的进一步发展。在本工作中，我们提出一种新颖且简化的GAN模型，仅通过对抗性监督即可实现高质量的图像生成。我们重新设计了判别器，将其构造成一个语义分割网络，并直接将给定的语义标签图（label maps）作为训练的真值（ground truth）。通过引入具有空间与语义感知能力的判别器反馈机制，我们为判别器和生成器提供了更强的监督信号，从而实现了与输入标签图更高保真度、更精准对齐的图像合成，使得感知损失的使用变得不再必要。此外，我们通过在生成器中注入三维噪声张量并结合全局与局部采样策略，实现了高质量的多模态图像合成，支持图像的完整或局部修改。实验表明，本模型生成的图像具有更高的多样性，并更准确地遵循真实图像的颜色与纹理分布特征。在多个数据集上，仅使用对抗性监督，我们的方法相比当前最优技术平均提升了6个FID分数和5个mIoU分数。

源 PDF