HyperAIHyperAI

Command Palette

Search for a command to run...

NoisyTwins:通过StyleGAN实现类别一致且多样化的图像生成

Harsh Rangwani Lavish Bansal Kartik Sharma Tejan Karmali Varun Jampani R. Venkatesh Babu

摘要

StyleGAN系列模型在可控图像生成领域处于前沿地位,因其生成的潜在空间具有语义解耦特性,从而适用于图像编辑与操控。然而,当在大规模长尾数据集上通过类别条件训练时,StyleGAN的性能会显著下降。我们发现,性能退化的一个重要原因是:在W\mathcal{W}W潜在空间中,各类别的潜在表示出现坍缩(collapse)现象。针对这一问题,我们提出NoisyTwins方法,首次引入一种高效且低成本的类别嵌入增强策略,通过W\mathcal{W}W空间中的自监督机制实现潜在表示的去相关性。该去相关性有效缓解了潜在空间坍缩问题,确保了生成图像在保持类别一致性的同时,仍能充分保留类内多样性。我们在ImageNet-LT和iNaturalist 2019这两个大规模真实世界长尾数据集上验证了该方法的有效性,实验结果显示,相较于现有方法,我们的方法在FID指标上提升了约19%,达到了新的最优性能,确立了当前最先进的技术水平。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供