17 天前

通过副本交换随机梯度MCMC进行非凸学习

Wei Deng, Qi Feng, Liyao Gao, Faming Liang, Guang Lin
通过副本交换随机梯度MCMC进行非凸学习
摘要

复制交换蒙特卡洛(Replica Exchange Monte Carlo, reMC),又称并行退火,是一种用于加速传统马尔可夫链蒙特卡洛(MCMC)算法收敛的重要技术。然而,该方法需要基于完整数据集计算能量函数,难以扩展至大规模数据场景。在小批量(mini-batch)设置下对reMC进行朴素实现会引入显著偏差,因而无法直接推广至随机梯度MCMC(Stochastic Gradient MCMC, SGMCMC)——后者是模拟深度神经网络(DNNs)采样过程的标准方法。本文提出一种自适应复制交换SGMCMC(reSGMCMC)算法,可自动校正此类偏差,并系统研究其相关性质。分析表明,在随机环境中对马尔可夫跳跃过程进行数值离散化时,存在加速性与准确性之间的权衡。在实验方面,我们在多种设置下进行了广泛测试,结果表明,该算法在监督学习与半监督学习任务中,于CIFAR10、CIFAR100和SVHN数据集上均取得了当前最先进的性能表现。