16 天前

NoisyTwins:通过StyleGAN实现类别一致且多样化的图像生成

Harsh Rangwani, Lavish Bansal, Kartik Sharma, Tejan Karmali, Varun Jampani, R. Venkatesh Babu
NoisyTwins:通过StyleGAN实现类别一致且多样化的图像生成
摘要

StyleGAN系列模型在可控图像生成领域处于前沿地位,因其生成的潜在空间具有语义解耦特性,从而适用于图像编辑与操控。然而,当在大规模长尾数据集上通过类别条件训练时,StyleGAN的性能会显著下降。我们发现,性能退化的一个重要原因是:在$\mathcal{W}$潜在空间中,各类别的潜在表示出现坍缩(collapse)现象。针对这一问题,我们提出NoisyTwins方法,首次引入一种高效且低成本的类别嵌入增强策略,通过$\mathcal{W}$空间中的自监督机制实现潜在表示的去相关性。该去相关性有效缓解了潜在空间坍缩问题,确保了生成图像在保持类别一致性的同时,仍能充分保留类内多样性。我们在ImageNet-LT和iNaturalist 2019这两个大规模真实世界长尾数据集上验证了该方法的有效性,实验结果显示,相较于现有方法,我们的方法在FID指标上提升了约19%,达到了新的最优性能,确立了当前最先进的技术水平。

NoisyTwins:通过StyleGAN实现类别一致且多样化的图像生成 | 最新论文 | HyperAI超神经