2 个月前

基于对象的布局图像生成

Sylvain, Tristan ; Zhang, Pengchuan ; Bengio, Yoshua ; Hjelm, R Devon ; Sharma, Shikhar

摘要

尽管在单对象和单域图像生成方面取得了令人印象深刻的结果，但多对象复杂场景的生成仍然具有挑战性。本文从一个基本观点出发，即模型必须能够理解场景中的各个对象及其之间的关系，才能有效生成复杂的场景。我们提出了一种布局到图像生成方法，称为以对象为中心的生成对抗网络（Object-Centric Generative Adversarial Network，简称OC-GAN），该方法依赖于一种新颖的场景图相似度模块（Scene-Graph Similarity Module，简称SGSM）。SGSM学习场景中对象之间空间关系的表示，从而提高了模型的布局保真度。此外，我们还对生成器的条件机制进行了改进，增强了其对对象实例的感知能力。除了提高图像质量外，我们的贡献还缓解了先前方法中存在的两个问题：(1) 生成没有对应布局边界框的虚假对象；(2) 布局中的重叠边界框导致图像中对象合并。广泛的定量评估和消融研究证明了我们贡献的影响，我们的模型在COCO-Stuff和Visual Genome数据集上均优于之前的最先进方法。最后，我们通过引入SceneFID——一种以对象为中心的Fréchet Inception Distance指标的改编版本——解决了先前工作中评价指标的一个重要局限性，该指标更适合多对象图像。