
归一化流(normalizing flows)、自回归模型(autoregressive models)、变分自编码器(variational autoencoders, VAEs)以及深度能量模型(deep energy-based models)是当前深度生成学习中几类主要的基于似然(likelihood-based)的框架。在这些方法中,VAE 具有采样速度快、计算可 tractable(可处理)以及编码网络易于访问等优势。然而,目前其性能仍落后于归一化流和自回归模型等其他方法。尽管大多数关于 VAE 的研究集中于统计建模方面的挑战,本文则从一个正交方向出发,致力于为层次化 VAE 精心设计神经网络架构。为此,我们提出了一种新型深度层次化 VAE——Nouveau VAE(NVAE),该模型专为图像生成任务而设计,采用深度可分离卷积(depth-wise separable convolutions)与批量归一化(batch normalization)结构。NVAE 引入了正态分布的残差参数化(residual parameterization of Normal distributions),并通过谱正则化(spectral regularization)有效稳定了训练过程。实验结果表明,NVAE 在 MNIST、CIFAR-10、CelebA 64 和 CelebA HQ 等数据集上,作为非自回归类基于似然的模型,达到了当前最优的性能表现,并在 FFHQ 数据集上建立了强有力的基准。例如,在 CIFAR-10 上,NVAE 将此前的最优结果从 2.98 bit/dim 提升至 2.91 bit/dim;同时在 CelebA HQ 上生成了高质量的图像。据我们所知,NVAE 是首个成功应用于 256×256 像素自然图像生成的 VAE 模型。相关源代码已公开,地址为:https://github.com/NVlabs/NVAE。