
摘要
本文为Adam优化器建立了数学理论基础,通过黎曼几何与信息几何的视角,阐明了其与自然梯度下降法之间的内在联系。我们对Adam算法中对角线形式的经验Fisher信息矩阵(FIM)进行了清晰且详尽的分析,揭示了其中各项近似处理的原理,并主张在使用经验FIM时,应采用基于离散分布的对数概率函数作为损失函数,以克服经验FIM固有的局限性。通过理论分析,我们识别出原始Adam算法中存在的若干缺陷,并据此提出多项改进措施,包括优化动量计算方式、调整偏差校正机制、引入自适应ε参数以及梯度裁剪策略。基于所建立的理论框架,我们对权重衰减项进行了重新设计与修正。由此提出的改进算法——Fisher Adam(FAdam),在大语言模型(LLM)、自动语音识别(ASR)以及向量量化变分自编码器(VQ-VAE)等多个领域均展现出卓越性能,在ASR任务中达到了当前最先进的水平。