2 个月前
学习绘制什么和在哪里绘制
Scott Reed; Zeynep Akata; Santosh Mohan; Samuel Tenka; Bernt Schiele; Honglak Lee

摘要
生成对抗网络(GANs)最近展示了合成逼真的现实世界图像的能力,例如室内场景、专辑封面、漫画、人脸、鸟类和花卉。尽管现有的模型可以根据全局约束(如类别标签或标题)合成图像,但它们无法控制姿态或物体位置。我们提出了一种新的模型——生成对抗何物何处网络(Generative Adversarial What-Where Network, GAWWN),该模型能够在给定描述内容及其位置的指令下合成图像。我们在Caltech-UCSD鸟类数据集上展示了高质量的128 x 128图像合成结果,这些结果既基于非正式文本描述,也基于物体位置。我们的系统提供了对鸟的整体边界框及其各个组成部分的控制。通过建模部分位置上的条件分布,我们的系统还支持任意子集部分(例如仅喙和尾部)的条件输入,从而提供了一个高效的选择部分位置的接口。此外,我们在更具挑战性的领域中展示了初步结果,即在MPII人体姿态数据集上进行文本和位置可控的人体动作图像合成。