
摘要
语义图像合成(Semantic Image Synthesis, SIS)是图像到图像翻译的一个子类,其任务是从语义分割掩码生成逼真的图像。目前,SIS 主要被视为一个监督学习问题。然而,现有最先进方法严重依赖大规模标注数据,无法在无配对(unpaired)设置下应用。相比之下,通用的无配对图像到图像翻译框架性能较差,原因在于它们对语义布局进行颜色编码后输入传统卷积网络,导致网络学习的是外观上的对应关系,而非语义内容本身。在本项初步研究中,我们提出一种全新的无监督语义图像合成范式(Unsupervised Semantic Image Synthesis, USIS),作为缩小配对与无配对设置之间性能差距的第一步。值得注意的是,该框架采用 SPADE 生成器,并引入自监督分割损失,使生成器能够输出具有视觉可分语义类别的图像。此外,为在不丢失高频信息的前提下匹配真实图像的颜色与纹理分布,我们提出采用基于整图小波的判别机制。我们在三个具有挑战性的数据集上验证了所提方法,结果表明,该方法能够在无配对设置下生成具有多模态特性的逼真图像,且图像质量显著提升。