HyperAIHyperAI

Command Palette

Search for a command to run...

FAdam: Adam ist ein natürlicher Gradienten-Optimierer, der die diagonale empirische Fisher-Information nutzt.

Dongseong Hwang

Zusammenfassung

Diese Arbeit legt eine mathematische Grundlage für den Adam-Optimierer dar und erläutert dessen Zusammenhang mit der natürlichen Gradientenabstiegs-Methode unter Verwendung von Riemannscher und Informationstheorie. Wir bieten eine zugängliche und detaillierte Analyse der diagonalen empirischen Fisher-Informationsmatrix (FIM) im Rahmen von Adam, klären alle zugrundeliegenden Approximationen und plädieren für die Verwendung von Log-Wahrscheinlichkeitsfunktionen als Verlustfunktion, die auf diskreten Verteilungen basieren müssen, aufgrund der Einschränkungen der empirischen FIM. Unsere Analyse deckt Schwächen im ursprünglichen Adam-Algorithmus auf und führt Korrekturen ein, darunter verbesserte Impulsberechnungen, angepasste Bias-Korrektur, adaptive Epsilon-Werte sowie Gradienten-Cliquing. Wir verfeinern den Weight-Decay-Term auf Basis unseres theoretischen Rahmens. Unser modifizierter Algorithmus, Fisher Adam (FAdam), zeigt überzeugende Leistung in vielfältigen Anwendungsbereichen wie großen Sprachmodellen (LLM), Spracherkennung (ASR) und VQ-VAE und erreicht dabei state-of-the-art-Ergebnisse in der Spracherkennung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp