il y a 2 mois

Généralisation des MLP avec des dropouts, une normalisation par lots et des connexions résiduelles

Kim, Taewoon

Résumé

Un perceptron multicouche (MLP) est généralement composé de plusieurs couches entièrement connectées munies de fonctions d'activation non linéaires. Plusieurs approches ont été proposées pour améliorer leurs performances (par exemple, une convergence plus rapide, un meilleur point de convergence, etc.). Cependant, les recherches manquent de méthodes structurées pour les évaluer. Nous avons testé différentes architectures de MLP en menant des expériences sur des jeux de données relatifs à l'âge et au sexe. Nous montrons empiriquement que le blanchiment des entrées avant chaque couche linéaire et l'ajout de connexions résiduelles peuvent entraîner une meilleure performance de notre architecture MLP proposée. Étant donné que le processus de blanchiment inclut des dropouts, il peut également être utilisé pour approximer l'inférence bayésienne. Nous avons rendu notre code open source et mis à disposition nos modèles ainsi que des images Docker sur https://github.com/tae898/age-gender/