Activation paramétrique adaptative

La fonction d'activation joue un rôle crucial dans l'optimisation des modèles, mais le choix optimal reste incertain. Par exemple, la fonction d'activation Sigmoid est de facto utilisée pour les tâches de classification équilibrées, cependant, elle s'avère inappropriée pour les classifications déséquilibrées en raison de son biais vers les classes fréquentes. Dans cette étude, nous approfondissons ce phénomène en effectuant une analyse statistique complète dans les couches intermédiaires et de classification des réseaux équilibrés et déséquilibrés, et nous montrons empiriquement que l'alignement de la fonction d'activation avec la distribution des données améliore les performances dans les tâches équilibrées et déséquilibrées. À cet effet, nous proposons la fonction d'activation paramétrique adaptative (APA), une nouvelle et polyvalente fonction d'activation qui unifie la plupart des fonctions d'activation courantes sous une seule formule. L'APA peut être appliquée aux couches intermédiaires et aux couches d'attention, surpassant significativement l'état de l'art sur plusieurs benchmarks déséquilibrés tels que ImageNet-LT, iNaturalist2018, Places-LT, CIFAR100-LT et LVIS ainsi que sur des benchmarks équilibrés comme ImageNet1K, COCO et V3DET. Le code est disponible à l'adresse suivante : https://github.com/kostas1515/AGLU.