HyperAIHyperAI

Command Palette

Search for a command to run...

Polynomielle, trigonometrische und tropische Aktivierungen

Ismail Khalfaoui-Hassani Stefan Kesselheim

Zusammenfassung

Welche Funktionen können als Aktivierungsfunktionen in tiefen neuronalen Netzen eingesetzt werden? In diesem Artikel werden Familien von Funktionen untersucht, die auf orthonormalen Basen basieren, darunter die Hermite-Polynom-Basis und die Fourier-trigonometrische Basis sowie eine Basis, die sich aus der tropischen Transformation einer Polynom-Basis ergibt. Unsere Studie zeigt, dass diese Aktivierungsfunktionen – durch eine einfache varianz-erhaltende Initialisierung und ohne zusätzliche Clamp-Mechanismen – erfolgreich zur Trainierung tiefer Modelle eingesetzt werden können, beispielsweise GPT-2 für die Vorhersage des nächsten Tokens auf OpenWebText und ConvNeXt für die Bildklassifizierung auf ImageNet. Unser Ansatz befasst sich mit dem Problem explodierender und verschwindender Aktivierungen sowie Gradienten, das insbesondere bei polynomiellen Aktivierungen weit verbreitet ist, und eröffnet neue Möglichkeiten zur Verbesserung der Effizienz großer Skalen-Lernaufgaben. Zudem liefert unsere Methode Einblicke in die Struktur neuronalen Netze und zeigt, dass Netze mit polynomiellen Aktivierungen als multivariate Polynomabbildungen interpretiert werden können. Schließlich demonstrieren wir mithilfe der Hermite-Interpolation, dass unsere Aktivierungsfunktionen klassische Aktivierungen in vortrainierten Modellen durch die exakte Übereinstimmung von Funktion und ihrer Ableitung sehr genau approximieren können, was sie besonders geeignet für Feinabstimmungsaufgaben macht. Die Aktivierungsfunktionen sind in der Bibliothek torchortho verfügbar, die über folgenden Link zugänglich ist: https://github.com/K-H-Ismail/torchortho.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp