vor 10 Tagen

Polynomielle, trigonometrische und tropische Aktivierungen

Ismail Khalfaoui-Hassani, Stefan Kesselheim

Abstract

Welche Funktionen können als Aktivierungsfunktionen in tiefen neuronalen Netzen eingesetzt werden? In diesem Artikel werden Familien von Funktionen untersucht, die auf orthonormalen Basen basieren, darunter die Hermite-Polynom-Basis und die Fourier-trigonometrische Basis sowie eine Basis, die sich aus der tropischen Transformation einer Polynom-Basis ergibt. Unsere Studie zeigt, dass diese Aktivierungsfunktionen – durch eine einfache varianz-erhaltende Initialisierung und ohne zusätzliche Clamp-Mechanismen – erfolgreich zur Trainierung tiefer Modelle eingesetzt werden können, beispielsweise GPT-2 für die Vorhersage des nächsten Tokens auf OpenWebText und ConvNeXt für die Bildklassifizierung auf ImageNet. Unser Ansatz befasst sich mit dem Problem explodierender und verschwindender Aktivierungen sowie Gradienten, das insbesondere bei polynomiellen Aktivierungen weit verbreitet ist, und eröffnet neue Möglichkeiten zur Verbesserung der Effizienz großer Skalen-Lernaufgaben. Zudem liefert unsere Methode Einblicke in die Struktur neuronalen Netze und zeigt, dass Netze mit polynomiellen Aktivierungen als multivariate Polynomabbildungen interpretiert werden können. Schließlich demonstrieren wir mithilfe der Hermite-Interpolation, dass unsere Aktivierungsfunktionen klassische Aktivierungen in vortrainierten Modellen durch die exakte Übereinstimmung von Funktion und ihrer Ableitung sehr genau approximieren können, was sie besonders geeignet für Feinabstimmungsaufgaben macht. Die Aktivierungsfunktionen sind in der Bibliothek torchortho verfügbar, die über folgenden Link zugänglich ist: https://github.com/K-H-Ismail/torchortho.