2 个月前
基于上下文的布局到图像生成技术,增强对象外观
He, Sen ; Liao, Wentong ; Yang, Michael Ying ; Yang, Yongxin ; Song, Yi-Zhe ; Rosenhahn, Bodo ; Xiang, Tao

摘要
布局到图像(L2I)生成模型旨在根据给定的布局生成包含多个物体(things)且背景为自然场景(stuff)的复杂图像。基于近期在生成对抗网络(GANs)方面的进展,现有的L2I模型已经取得了显著的进步。然而,仔细检查这些模型生成的图像可以发现两个主要限制:(1) 物体之间的关系以及物体与背景的关系经常被破坏;(2) 每个物体的外观通常会失真,缺乏该物体类别所特有的关键定义特征。我们认为,这些问题是由生成器中缺乏上下文感知的物体和背景特征编码以及判别器中缺乏位置敏感的外观表示所引起的。为了克服这些限制,本文提出了两个新的模块。首先,在生成器中引入了一个上下文感知特征转换模块,以确保生成的物体或背景特征编码能够意识到场景中其他共存的物体/背景。其次,我们没有向判别器输入位置不敏感的图像特征,而是使用从生成物体图像的特征图计算得到的Gram矩阵来保留位置敏感的信息,从而大大提升了物体的外观质量。大量实验表明,所提出的方法在COCO-Thing-Stuff和Visual Genome基准测试中达到了最先进的性能。