17 天前

非常深的VAE泛化了自回归模型，并在图像任务上能够超越它们

Rewon Child

摘要

我们提出了一种分层变分自编码器（hierarchical VAE），首次在所有自然图像基准测试中实现了比PixelCNN更高的对数似然性能，同时生成样本的速度显著更快。我们首先观察到，理论上，当变分自编码器（VAE）足够深时，其不仅能表示自回归模型，还能实现比自回归模型更快、更优的生成效果（若此类模型存在）。尽管如此，历史上自回归模型在对数似然性能上始终优于VAE。为检验“深度不足”是否是导致这一差距的原因，我们对VAE进行了扩展，使其达到此前未充分探索的更大随机深度，并在CIFAR-10、ImageNet和FFHQ数据集上进行了评估。与PixelCNN相比，这些极深的VAE模型在对数似然上表现更优，参数量更少，生成样本的速度快数千倍，并且更易于应用于高分辨率图像。定性分析表明，这主要归因于VAE能够学习到高效且分层的视觉表征。我们已在 https://github.com/openai/vdvae 开源了相关代码与模型。