
摘要
变分自编码器(VAE)是一种流行的深度潜在变量模型及其伴随的变分学习技术的组合。通过使用神经推理网络来近似模型在潜在变量上的后验分布,VAE能够高效地参数化边缘数据似然性的下界,该下界可以通过梯度方法直接进行优化。然而,在实际应用中,VAE训练常常导致一种退化的局部最优解,称为“后验坍缩”,即模型学会了忽略潜在变量,而近似的后验分布则模仿了先验分布。本文从训练动态的角度探讨了后验坍缩问题。我们发现,在训练初期阶段,推理网络未能准确近似模型的真实后验分布,而这一目标是在不断变化的。因此,模型被鼓励忽略潜在编码,从而导致后验坍缩的发生。基于这一观察结果,我们提出了一种极其简单的修改方法来减少推理滞后:根据当前模型中潜在变量与观测值之间的互信息量,在每次模型更新之前积极优化推理网络。尽管我们的方法没有引入新的模型组件或显著增加基本VAE的复杂性,但仍然能够避免困扰大量先前工作的坍缩问题。实验结果表明,我们的方法在文本和图像基准测试中的保留集似然性方面优于强大的自回归基线,并且在避免坍缩的同时具有更高的速度竞争力,与更复杂的技巧相比表现相当。