
要約
生成対抗ネットワーク(GAN)は、教師なし学習において強力なアプローチであり、画像領域において最先端の性能を達成している。しかし、GANには二つの限界がある。まず、低次元のサポートを持つ分布を学習しがちである——いわゆる「モード崩壊(mode collapse)」と呼ばれる現象——であり、また、確率密度関数の存在を保証しない。このため、予測対数尤度(predictive log-likelihood)を用いた汎化性能の評価が不可能となる。本論文では、これらの課題を克服するため、所与のGAN(PresGAN)を提案する。PresGANは、密度ネットワークの出力にノイズを加え、エントロピー正則化付きの敵対的損失を最適化する。加えられたノイズにより、予測対数尤度の取り扱い可能な近似が可能となり、学習プロセスの安定化が図られる。また、エントロピー正則化項は、データ分布のすべてのモードを捉えるようPresGANを促進する。PresGANの適合には、エントロピー正則化項の非解析的勾配の計算が必要となるが、PresGANは不偏な確率的推定を用いてこの非解析性を回避する。複数のデータセット上でPresGANを評価した結果、モード崩壊の緩和および高品質な視覚的サンプルの生成が確認された。さらに、従来のGANと変分自己符号化器(VAE)の間における予測対数尤度の性能差を、PresGANが縮小することも明らかになった。