
摘要
随着深度生成模型在近期取得的显著进展,开发可从可重构输入中进行可控图像合成的模型变得越来越有趣。本文关注一个最近出现的任务——布局到图像(layout-to-image),旨在学习能够从空间布局(即在图像网格中配置的对象边界框)和风格(即由潜在向量编码的结构和外观变化)生成逼真照片的生成模型。首先,本文提出了一种直观的方法范式——布局到掩模再到图像(layout-to-mask-to-image),以学习如何展开给定边界框的对象掩模,从而弥合输入布局与合成图像之间的差距。接着,本文介绍了一种基于生成对抗网络(Generative Adversarial Networks, GANs)的方法,该方法不仅实现了图像级别的风格控制,还通过一种新颖的特征归一化方案——实例敏感且布局感知归一化(Instance-Sensitive and Layout-Aware Normalization)实现了对象掩模级别的风格控制。对象掩模从输入布局中学习,并在网络生成器的不同阶段逐步细化。实验结果表明,所提出的方法在COCO-Stuff数据集和Visual Genome数据集上均取得了最先进的性能。