16日前
NoisyTwins: StyleGANを用いたクラス一貫性と多様性を兼ね備えた画像生成
Harsh Rangwani, Lavish Bansal, Kartik Sharma, Tejan Karmali, Varun Jampani, R. Venkatesh Babu

要約
StyleGANは、画像生成において制御性が高く、意味的に分離された潜在空間(latent space)を生成するため、画像の編集や操作に適している点で、現在の画像生成技術の先端を走っています。しかし、大規模かつ長尾分布(long-tailed)なデータセットに対してクラス条件付き学習を適用した場合、StyleGANの性能は著しく低下します。本研究では、その原因の一つとして、$\mathcal{W}$ 潜在空間内における各クラスの潜在表現が崩壊(collapse)していることが明らかになりました。そこで本研究では、NoisyTwinsという新しいアプローチを提案します。この手法は、クラス埋め込み(class embeddings)に対する効果的かつ低コストな拡張戦略を導入し、$\mathcal{W}$ 空間内での自己教師学習(self-supervision)に基づいて潜在表現の相関を低減します。この相関の低減により、潜在空間の崩壊が抑制され、画像生成においてクラスの一貫性を保ちつつ、クラス内多様性を維持することが可能になります。本手法の有効性を、ImageNet-LTおよびiNaturalist 2019という大規模な現実世界の長尾分布データセット上で検証した結果、FIDスコアにおいて他の手法を約19%上回り、新たな最先端(state-of-the-art)の性能を達成しました。