
正規化フロー(normalizing flows)、自己回帰モデル(autoregressive models)、変分自己符号化器(variational autoencoders, VAEs)、および深層エネルギーに基づくモデルは、深層生成学習における主な尤度ベースの枠組みとして競合している。その中でもVAEは、高速かつ扱いやすいサンプリングと、容易にアクセス可能な符号化ネットワークという利点を有している。しかし、現在では正規化フローおよび自己回帰モデルなどの他のモデルに性能で劣っている。VAEに関する大多数の研究は統計的な課題に注力している一方で、本研究では階層的VAEのための神経ネットワークアーキテクチャを精緻に設計するという異方的なアプローチを提案する。本研究では、深さ方向可分畳み込み(depth-wise separable convolutions)とバッチ正規化(batch normalization)を用いて画像生成に特化した深層階層的VAE「Nouveau VAE(NVAE)」を提案する。NVAEは正規分布の残差パラメータ化(residual parameterization)を採用しており、スペクトル正則化によって学習の安定化を実現している。実験の結果、NVAEはMNIST、CIFAR-10、CelebA 64、CelebA HQの各データセットにおいて、非自己回帰型尤度ベースモデルの中で最先端の性能を達成した。また、FFHQデータセットにおいても強力なベースラインを提供している。例えばCIFAR-10では、従来の最先端性能である2.98ビット/次元を2.91ビット/次元まで改善し、CelebA HQでは高品質な画像を生成した。知られている限り、NVAEは256×256ピクセルという自然画像にまで成功裏に適用された初のVAEである。ソースコードは以下のURLで公開されている:https://github.com/NVlabs/NVAE。