
要約
大規模な学習の登場により、強力な視覚認識モデルの宝庫が生み出された。しかし、GANなどの生成モデルは従来、教師なしの形で完全に初期状態から訓練されてきた。膨大な数の事前学習済み視覚モデルに蓄積された「知識」を活用して、GANの学習を改善できるだろうか?もしそうであるならば、選択肢が多様な中で、どのモデルを選定すべきか、そしてどのような方法で最も効果的に利用できるのか?本研究では、事前学習済みコンピュータビジョンモデルを識別器のアンサンブルとして用いることで、性能の著しい向上が可能であることを明らかにした。特に、選定されるモデルのサブセットが性能に大きな影響を与えることが明らかになった。そこで、事前学習モデルの埋め込み空間において、本物と偽物のサンプルの線形分離可能性を調査し、最も精度の高いモデルを選び、順次識別器アンサンブルに追加する効果的な選定メカニズムを提案する。興味深いことに、本手法はデータ量が限られた状況と大規模な学習設定の両方でGANの学習を改善できる。わずか1万枚の訓練データしか与えられなかった場合でも、LSUN Catデータセットにおいて、本手法は160万枚の画像で学習されたStyleGAN2と同等のFIDスコアを達成した。全データセットを用いた場合、LSUNの猫、教会、馬のカテゴリにおいて、FIDスコアを1.5倍から2倍まで改善する効果が確認された。