Activations polynomiales, trigonométriques et tropicales

Quelles fonctions peuvent être utilisées comme activations dans les réseaux neuronaux profonds ? Cet article explore des familles de fonctions fondées sur des bases orthonormées, notamment la base polynomiale de Hermite et la base trigonométrique de Fourier, ainsi qu’une base résultant de la tropicalisation d’une base polynomiale. Notre étude démontre qu’en utilisant une initialisation simple préservant la variance, et sans recourir à des mécanismes supplémentaires de limitation (clamping), ces activations peuvent être efficacement employées pour entraîner des modèles profonds, tels que GPT-2 pour la prédiction du token suivant sur OpenWebText ou ConvNeXt pour la classification d’images sur ImageNet. Ce travail aborde le problème des activations et gradients explosifs ou disparaissant, particulièrement fréquent avec les activations polynomiales, et ouvre la voie à une amélioration de l’efficacité des tâches d’apprentissage à grande échelle. En outre, notre approche fournit des insights sur la structure des réseaux neuronaux, en révélant que les réseaux utilisant des activations polynomiales peuvent être interprétés comme des applications polynomiales multivariées. Enfin, en utilisant une interpolation de Hermite, nous montrons que nos activations peuvent approcher très précisément les activations classiques présentes dans les modèles pré-entraînés, en coïncidant non seulement avec la fonction elle-même, mais aussi avec sa dérivée, ce qui les rend particulièrement adaptées aux tâches d’ajustement fin (fine-tuning). Ces activations sont disponibles dans la bibliothèque torchortho, accessible à l’adresse suivante : https://github.com/K-H-Ismail/torchortho.