HyperAIHyperAI

Command Palette

Search for a command to run...

Activations polynomiales, trigonométriques et tropicales

Ismail Khalfaoui-Hassani Stefan Kesselheim

Résumé

Quelles fonctions peuvent être utilisées comme activations dans les réseaux neuronaux profonds ? Cet article explore des familles de fonctions fondées sur des bases orthonormées, notamment la base polynomiale de Hermite et la base trigonométrique de Fourier, ainsi qu’une base résultant de la tropicalisation d’une base polynomiale. Notre étude démontre qu’en utilisant une initialisation simple préservant la variance, et sans recourir à des mécanismes supplémentaires de limitation (clamping), ces activations peuvent être efficacement employées pour entraîner des modèles profonds, tels que GPT-2 pour la prédiction du token suivant sur OpenWebText ou ConvNeXt pour la classification d’images sur ImageNet. Ce travail aborde le problème des activations et gradients explosifs ou disparaissant, particulièrement fréquent avec les activations polynomiales, et ouvre la voie à une amélioration de l’efficacité des tâches d’apprentissage à grande échelle. En outre, notre approche fournit des insights sur la structure des réseaux neuronaux, en révélant que les réseaux utilisant des activations polynomiales peuvent être interprétés comme des applications polynomiales multivariées. Enfin, en utilisant une interpolation de Hermite, nous montrons que nos activations peuvent approcher très précisément les activations classiques présentes dans les modèles pré-entraînés, en coïncidant non seulement avec la fonction elle-même, mais aussi avec sa dérivée, ce qui les rend particulièrement adaptées aux tâches d’ajustement fin (fine-tuning). Ces activations sont disponibles dans la bibliothèque torchortho, accessible à l’adresse suivante : https://github.com/K-H-Ismail/torchortho.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp