
要約
我々は、初めて自然画像のすべてのベンチマークにおいて、対数尤度性能でPixelCNNを上回りつつ、高速にサンプルを生成できる階層的VAEを提示する。本研究では、理論的にVAEは、十分に深い構造をとれば、自己回帰モデル(autoregressive models)を表現できるだけでなく、もしあるならばより高速で優れたモデルも表現可能であることに着目する。しかし、歴史的に見て、自己回帰モデルは対数尤度性能においてVAEを常に上回っており、その理由として、VAEの深さが不十分である可能性を検証した。そこで、これまでに探求されたよりもはるかに高い確率的深さ(stochastic depth)を持つVAEを構築し、CIFAR-10、ImageNet、FFHQの各データセット上で評価を行った。その結果、PixelCNNと比較して、極めて深いVAEはより高い尤度を達成し、パラメータ数を少なく抑え、サンプル生成速度を数千倍高速化するとともに、高解像度画像への適用もより容易であることが明らかになった。定性的な分析から、これはVAEが効率的な階層的視覚表現を学習しているためであると示唆される。本研究で開発したソースコードおよびモデルは、https://github.com/openai/vdvae にて公開する。