7 天前

高效-VDVAE:少即是多

Louay Hazami, Rayhane Mama, Ragavan Thurairatnam
高效-VDVAE:少即是多
摘要

近年来,分层变分自编码器(Hierarchical VAEs)已成为最大似然估计的一种可靠选择。然而,其固有的训练不稳定性以及高昂的计算资源需求,严重制约了该领域的研究进展。本文针对极深变分自编码器(Very Deep VAE, VDVAE)提出一系列简单而有效的改进,使模型收敛速度提升最高达2.6倍,内存占用降低最高达20倍,同时显著增强了训练过程中的稳定性。尽管进行了这些优化,我们的模型在所评估的7个常用图像数据集上,负对数似然(negative log-likelihood)性能仍达到或优于当前最先进的模型。此外,我们指出,使用5比特量化基准来衡量分层VAE的性能存在明显偏差,因此不建议将其作为评估标准。我们通过实证研究进一步表明,分层VAE的潜在空间中仅约3%的维度即可充分编码图像的大部分信息,且不会造成性能损失。这一发现为在下游任务中高效利用分层VAE的潜在空间开辟了新途径。相关源代码与训练模型已公开发布于:https://github.com/Rayhane-mamah/Efficient-VDVAE。