17 天前

用于语义图像合成的预训练图像主干网络解锁

Tariq Berrada, Jakob Verbeek, Camille Couprie, Karteek Alahari
用于语义图像合成的预训练图像主干网络解锁
摘要

语义图像合成,即根据用户提供的语义标签图生成图像,是一项重要的条件图像生成任务,因为它能够同时控制生成图像的内容与空间布局。尽管扩散模型在生成图像建模方面已达到当前技术水平,但其推理过程具有迭代特性,导致计算开销较大。相比之下,生成对抗网络(GAN)等方法在生成时仅需一次前向传播,效率更高,但在大规模、多样化数据集上生成的图像质量往往有所下降。本文提出了一类新型GAN判别器,用于语义图像合成,通过利用为图像分类等任务预训练的特征主干网络,生成高度逼真的图像。同时,我们设计了一种新型生成器架构,具备更强的上下文建模能力,并引入交叉注意力机制将噪声注入潜在变量,从而生成更具多样性的图像。我们提出的模型命名为DP-SIMS,在ADE-20K、COCO-Stuff和Cityscapes三个基准数据集上均取得了当前最优的图像质量与输入标签图的一致性表现,显著超越近期扩散模型,且推理阶段所需计算资源仅为后者的百分之一(两个数量级)。