6 个月前

计算机视觉

计算机视觉

Harsh Rangwani Lavish Bansal Kartik Sharma Tejan Karmali Varun Jampani R. Venkatesh Babu

摘要

StyleGAN系列模型在可控图像生成领域处于前沿地位，因其生成的潜在空间具有语义解耦特性，从而适用于图像编辑与操控。然而，当在大规模长尾数据集上通过类别条件训练时，StyleGAN的性能会显著下降。我们发现，性能退化的一个重要原因是：在 $\mathcal{W}$ 潜在空间中，各类别的潜在表示出现坍缩（collapse）现象。针对这一问题，我们提出NoisyTwins方法，首次引入一种高效且低成本的类别嵌入增强策略，通过 $\mathcal{W}$ 空间中的自监督机制实现潜在表示的去相关性。该去相关性有效缓解了潜在空间坍缩问题，确保了生成图像在保持类别一致性的同时，仍能充分保留类内多样性。我们在ImageNet-LT和iNaturalist 2019这两个大规模真实世界长尾数据集上验证了该方法的有效性，实验结果显示，相较于现有方法，我们的方法在FID指标上提升了约19%，达到了新的最优性能，确立了当前最先进的技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Harsh Rangwani Lavish Bansal Kartik Sharma Tejan Karmali Varun Jampani R. Venkatesh Babu

摘要

StyleGAN系列模型在可控图像生成领域处于前沿地位，因其生成的潜在空间具有语义解耦特性，从而适用于图像编辑与操控。然而，当在大规模长尾数据集上通过类别条件训练时，StyleGAN的性能会显著下降。我们发现，性能退化的一个重要原因是：在 $\mathcal{W}$ 潜在空间中，各类别的潜在表示出现坍缩（collapse）现象。针对这一问题，我们提出NoisyTwins方法，首次引入一种高效且低成本的类别嵌入增强策略，通过 $\mathcal{W}$ 空间中的自监督机制实现潜在表示的去相关性。该去相关性有效缓解了潜在空间坍缩问题，确保了生成图像在保持类别一致性的同时，仍能充分保留类内多样性。我们在ImageNet-LT和iNaturalist 2019这两个大规模真实世界长尾数据集上验证了该方法的有效性，实验结果显示，相较于现有方法，我们的方法在FID指标上提升了约19%，达到了新的最优性能，确立了当前最先进的技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供