
摘要
尽管生成模型在近期取得了显著进展,但生成包含多个复杂物体布局的图像仍然是一个难题。其中的核心挑战包括给定物体可能具有的外观多样性以及由此产生的与指定布局一致的图像集合呈指数级增长。为了解决这些挑战,我们提出了一种基于布局的图像生成新方法,称之为Layout2Im。给定粗略的空间布局(边界框+物体类别),我们的模型可以生成一组具有正确物体且位于期望位置的真实图像。每个物体的表示被解耦为一个指定部分(类别)和一个未指定部分(外观)。类别通过词嵌入进行编码,而外观则被提炼为从正态分布中采样的低维向量。使用卷积LSTM将各个物体表示组合在一起,以获得整个布局的编码,然后将其解码为图像。引入了多个损失项来促进准确且多样的生成。所提出的Layout2Im模型在非常具有挑战性的COCO-Stuff和Visual Genome数据集上显著优于现有最佳方法,分别将最佳报告的Inception分数提高了24.66%和28.57%。大量实验还证明了我们的方法能够生成包含多个物体的复杂且多样的图像。