
摘要
基于用户引导输入的交互式图像合成是一项具有挑战性的任务,特别是在用户希望轻松控制生成图像的场景结构时。尽管在基于布局的图像合成方法上已经取得了显著进展,但现有的方法在生成逼真的假图像时仍需要高精度的输入,这可能需要多次调整,并且对新手用户不够友好。当边界框的位置受到扰动时,基于布局的模型在构建的语义布局中会出现“缺失区域”,从而导致生成图像中出现不理想的伪影。在这项工作中,我们提出了一种全景布局生成对抗网络(Panoptic Layout Generative Adversarial Networks, PLGAN)来解决这一挑战。PLGAN采用了全景理论,该理论区分了具有无定形边界的“背景”(stuff)和具有明确形状的“物体”(things),从而使背景和实例布局通过不同的分支构建,并最终融合为全景布局。特别是,背景布局可以采用无定形的形状并填补由实例布局留下的缺失区域。我们在COCO-Stuff、Visual Genome和Landscape数据集上实验比较了我们的PLGAN与最先进的基于布局的模型。PLGAN的优势不仅在视觉效果上得到了展示,而且在 inception 分数、Fréchet inception 距离、分类准确性分数和覆盖率等方面也得到了定量验证。