
초록
이 논문은 Adam 최적화 알고리즘에 대한 수학적 기반을 구축하며, 리만 기하학과 정보 기하학을 통해 자연적 경사하강법(natural gradient descent)과의 관계를 명확히 한다. 본 연구에서는 Adam에 포함된 대각형 경험적 페셔 정보 행렬(empirical Fisher information matrix, FIM)에 대해 접근성 있고 체계적인 분석을 제공하며, 모든 근사 처리 과정을 명확히 밝히고, 경험적 FIM의 한계를 고려하여 손실 함수로 로그 확률 함수(log probability functions)를 사용할 것을 제안한다. 이는 이산 확률 분포를 기반으로 해야 함을 의미한다. 본 분석을 통해 원래 Adam 알고리즘의 내재적 결함을 밝혀내었으며, 이를 바탕으로 보완된 알고리즘을 제안한다. 제안된 보완 조치에는 향상된 모멘텀 계산 방식, 조정된 편향 보정, 적응형 에프실론(epsilon), 그리고 그래디언트 클리핑 등이 포함된다. 또한 이론적 틀을 기반으로 가중치 감쇠(weight decay) 항을 개선하였다. 개선된 알고리즘인 피셔 Adam(FAdam)은 대규모 언어 모델(LLM), 음성 인식(ASR), VQ-VAE 등 다양한 분야에서 우수한 성능을 보이며, 특히 ASR 분야에서 최신 기준(SOTA, state-of-the-art) 성능을 달성하였다.