17 天前

语义瓶颈场景生成

Samaneh Azadi, Michael Tschannen, Eric Tzeng, Sylvain Gelly, Trevor Darrell, Mario Lucic

摘要

将标签条件图像生成方法的高保真生成能力与无条件生成模型的灵活性相结合，我们提出了一种语义瓶颈生成对抗网络（semantic bottleneck GAN），用于复杂场景的无条件图像合成。在训练阶段，我们假设像素级语义分割标签可用，并利用这些标签学习场景的结构信息。在推理阶段，我们的模型首先从零开始合成一个逼真的语义分割布局，随后基于该布局生成一幅真实的场景图像。针对前者，我们采用一种无条件的渐进式语义分割生成网络，以捕捉真实语义场景布局的分布特性；针对后者，则使用一种条件化的“分割图到图像”合成网络，以建模在给定语义布局条件下真实感图像的分布。当模型以端到端方式训练完成后，其在两个具有挑战性的数据域上，于无监督图像合成任务中，相较于当前最先进的生成模型，在弗雷歇 inception 距离（Frechet Inception Distance, FID）和用户评估两项指标上均表现出更优性能。此外，我们进一步证明，生成的语义分割图可作为额外训练数据，显著提升近期“分割图到图像”合成网络的性能。