
要約
本稿はAdam最適化手法に数学的基盤を構築し、リーマン幾何学および情報幾何学の観点から、自然勾配降下法(natural gradient descent)との関係を明らかにした。Adamにおける対角成分に制限された経験的フィッシャー情報行列(empirical Fisher Information Matrix, FIM)について、理解しやすい詳細な解析を提供し、すべての近似手法の詳細を明確にした上で、離散分布に基づく対数確率関数を損失関数として用いるべきであることを提唱する。これは経験的FIMの限界に起因する。本分析により、元のAdamアルゴリズムに内在する欠陥が明らかとなり、それらを修正する新たな提案がなされた。具体的には、強化されたモーメンタム計算、調整されたバイアス補正、適応的エプシロン(epsilon)の導入、および勾配クリッピングの導入が含まれる。また、理論的枠組みに基づき、重み減衰項の再定式化を実施した。これらの改良を反映した本研究の提案アルゴリズム、Fisher Adam(FAdam)は、大規模言語モデル(LLM)、音声認識(ASR)、VQ-VAEなど多様な分野において優れた性能を示し、特にASR分野で最先端の成果を達成した。