HyperAIHyperAI

Command Palette

Search for a command to run...

NoisyTwins: StyleGANを用いたクラス一貫性と多様性を兼ね備えた画像生成

Harsh Rangwani Lavish Bansal Kartik Sharma Tejan Karmali Varun Jampani R. Venkatesh Babu

概要

StyleGANは、画像生成において制御性が高く、意味的に分離された潜在空間(latent space)を生成するため、画像の編集や操作に適している点で、現在の画像生成技術の先端を走っています。しかし、大規模かつ長尾分布(long-tailed)なデータセットに対してクラス条件付き学習を適用した場合、StyleGANの性能は著しく低下します。本研究では、その原因の一つとして、W\mathcal{W}W 潜在空間内における各クラスの潜在表現が崩壊(collapse)していることが明らかになりました。そこで本研究では、NoisyTwinsという新しいアプローチを提案します。この手法は、クラス埋め込み(class embeddings)に対する効果的かつ低コストな拡張戦略を導入し、W\mathcal{W}W 空間内での自己教師学習(self-supervision)に基づいて潜在表現の相関を低減します。この相関の低減により、潜在空間の崩壊が抑制され、画像生成においてクラスの一貫性を保ちつつ、クラス内多様性を維持することが可能になります。本手法の有効性を、ImageNet-LTおよびiNaturalist 2019という大規模な現実世界の長尾分布データセット上で検証した結果、FIDスコアにおいて他の手法を約19%上回り、新たな最先端(state-of-the-art)の性能を達成しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
NoisyTwins: StyleGANを用いたクラス一貫性と多様性を兼ね備えた画像生成 | 記事 | HyperAI超神経