HyperAIHyperAI
vor 17 Tagen

FAdam: Adam ist ein natürlicher Gradienten-Optimierer, der die diagonale empirische Fisher-Information nutzt.

Dongseong Hwang
FAdam: Adam ist ein natürlicher Gradienten-Optimierer, der die diagonale empirische Fisher-Information nutzt.
Abstract

Diese Arbeit legt eine mathematische Grundlage für den Adam-Optimierer dar und erläutert dessen Zusammenhang mit der natürlichen Gradientenabstiegs-Methode unter Verwendung von Riemannscher und Informationstheorie. Wir bieten eine zugängliche und detaillierte Analyse der diagonalen empirischen Fisher-Informationsmatrix (FIM) im Rahmen von Adam, klären alle zugrundeliegenden Approximationen und plädieren für die Verwendung von Log-Wahrscheinlichkeitsfunktionen als Verlustfunktion, die auf diskreten Verteilungen basieren müssen, aufgrund der Einschränkungen der empirischen FIM. Unsere Analyse deckt Schwächen im ursprünglichen Adam-Algorithmus auf und führt Korrekturen ein, darunter verbesserte Impulsberechnungen, angepasste Bias-Korrektur, adaptive Epsilon-Werte sowie Gradienten-Cliquing. Wir verfeinern den Weight-Decay-Term auf Basis unseres theoretischen Rahmens. Unser modifizierter Algorithmus, Fisher Adam (FAdam), zeigt überzeugende Leistung in vielfältigen Anwendungsbereichen wie großen Sprachmodellen (LLM), Spracherkennung (ASR) und VQ-VAE und erreicht dabei state-of-the-art-Ergebnisse in der Spracherkennung.