2 个月前
基于对象的布局图像生成
Sylvain, Tristan ; Zhang, Pengchuan ; Bengio, Yoshua ; Hjelm, R Devon ; Sharma, Shikhar

摘要
尽管在单对象和单域图像生成方面取得了令人印象深刻的结果,但多对象复杂场景的生成仍然具有挑战性。本文从一个基本观点出发,即模型必须能够理解场景中的各个对象及其之间的关系,才能有效生成复杂的场景。我们提出了一种布局到图像生成方法,称为以对象为中心的生成对抗网络(Object-Centric Generative Adversarial Network,简称OC-GAN),该方法依赖于一种新颖的场景图相似度模块(Scene-Graph Similarity Module,简称SGSM)。SGSM学习场景中对象之间空间关系的表示,从而提高了模型的布局保真度。此外,我们还对生成器的条件机制进行了改进,增强了其对对象实例的感知能力。除了提高图像质量外,我们的贡献还缓解了先前方法中存在的两个问题:(1) 生成没有对应布局边界框的虚假对象;(2) 布局中的重叠边界框导致图像中对象合并。广泛的定量评估和消融研究证明了我们贡献的影响,我们的模型在COCO-Stuff和Visual Genome数据集上均优于之前的最先进方法。最后,我们通过引入SceneFID——一种以对象为中心的Fréchet Inception Distance指标的改编版本——解决了先前工作中评价指标的一个重要局限性,该指标更适合多对象图像。