
要約
生成対抗ネットワーク(GAN)は高品質な画像を生成する一方で、訓練が困難であるという課題を抱えている。適切な正則化、膨大な計算資源、高コストなハイパーパラメータ探索が必要となる。本研究では、生成画像および実画像を固定された事前学習済み特徴空間に射影する手法を採用することで、これらの課題に大幅な進展をもたらす。事前学習モデルの深層からの特徴を識別器が十分に活用できていないという知見に着目し、チャネルおよび解像度にわたる特徴の混合を実現するより効果的な戦略を提案する。提案手法であるProjected GANは、画像品質、サンプル効率、収束速度の向上を実現した。さらに、最大1メガピクセルの解像度に対応可能であり、22のベンチマークデータセットにおいて、最先端のFréchet Inception Distance(FID)を達成した。特に、同じ計算リソース条件下で、従来の最低FID値に達するまでの壁時計時間(wall-clock time)を最大40倍速く実現し、5日間かかっていた訓練を3時間未満に短縮することに成功した。