17 天前

基于双MCMC教学的能源模型学习

Jiali Cui, Tian Han
基于双MCMC教学的能源模型学习
摘要

本文研究了能量模型(Energy-Based Model, EBM)这一基础学习问题。EBM 的学习通常可通过最大似然估计(Maximum Likelihood Estimation, MLE)实现,而该过程往往依赖马尔可夫链蒙特卡洛(Markov Chain Monte Carlo, MCMC)采样方法,例如朗之万动力学(Langevin dynamics)。然而,在实际应用中,以噪声初始化的朗之万动力学往往难以收敛且混合效率低下。这一挑战促使研究者探索将生成模型(generator model)与 EBM 进行联合训练,使生成模型作为互补模型,以绕过对 MCMC 采样的依赖。然而,此类方法的精度通常低于标准 MCMC 方法,可能导致 EBM 学习出现偏差。另一方面,生成模型也可作为更优的初始化模型,以提升 EBM 的 MCMC 采样效果。但其学习过程本身可能受到偏差影响,因为生成模型仅需匹配 EBM 的分布,而无法直接接触真实数据样本。这种偏差会限制生成模型对 EBM 学习的潜在增益。为解决上述问题,本文提出一种联合学习框架,将 EBM 与互补生成模型的最大似然学习算法进行交织式优化。具体而言,生成模型通过 MLE 同时拟合 EBM 的分布与真实数据分布,从而成为更具有信息量的初始状态,显著提升 EBM 的 MCMC 采样效率。在利用观测数据训练生成模型时,通常需要对生成模型的后验分布进行推断。为实现高效且准确的推断,本文采用 MCMC 后验采样,并引入一个互补的推断模型,用于初始化该潜在空间中的 MCMC 采样过程。实验表明,通过两次(对偶)MCMC 教学机制,可将三个独立模型——EBM、生成模型与推断模型——无缝整合进统一的联合学习框架中,从而实现高效且有效的 EBM 学习。

基于双MCMC教学的能源模型学习 | 最新论文 | HyperAI超神经