
摘要
变分自编码器(Variational Auto-Encoders, VAEs)是一种强大的无监督学习方法。它们通过变分推断(Variational Inference, VI)实现了在潜在变量模型中可扩展的近似后验推断。VAE假设一个由深度神经网络(称为编码器)参数化的变分族,该编码器以原始数据为输入,并在所有观测样本之间共享,从而实现了推断成本的摊销。然而,VAE的编码器存在一个不利特性:它会将某一给定观测及其语义保持不变的变换结果映射到不同的潜在表示。这种“不一致性”会降低所学习表示的质量,尤其是在下游任务中表现不佳,并对模型的泛化能力产生负面影响。本文提出一种正则化方法,用于在VAE中强制实现编码器的一致性。其核心思想是:最小化在条件于原始观测时的变分分布,与条件于该观测的随机语义保持变换时的变分分布之间的Kullback-Leibler(KL)散度。该正则化方法适用于任意类型的VAE。在实验中,我们将该方法应用于四种不同的VAE变体,在多个基准数据集上均取得了显著效果,不仅提升了所学表示的质量,还增强了模型的泛化能力。特别地,当应用于新型变分自编码器(Nouveau Variational Auto-Encoder, NVAE)时,该方法在MNIST和CIFAR-10数据集上均达到了当前最优性能。此外,我们将该方法扩展至三维数据,结果表明其在下游分类任务中的准确率显著优于基线方法,证明了所学表示具有更优的表达能力。