Verallgemeinerung von MLPs mit Dropout, Batch Normalisierung und Skip-Verbindungen

Ein Multilayer Perzeptron (MLP) besteht in der Regel aus mehreren vollständig verbundenen Schichten mit nichtlinearen Aktivierungsfunktionen. Es wurden verschiedene Ansätze entwickelt, um ihre Leistung zu verbessern (z.B. schnellere Konvergenz, bessere Konvergenzgrenzen usw.). Allerdings fehlen strukturierte Methoden zur Prüfung dieser Ansätze. Wir testen verschiedene MLP-Architekturen durch die Durchführung von Experimenten auf Datensätzen für Alter und Geschlecht. Unser experimentelles Ergebnis zeigt, dass durch die Weißen der Eingaben vor jeder linearen Schicht und das Hinzufügen von Skip-Verbindungen die vorgeschlagene MLP-Architektur eine bessere Leistung erzielen kann. Da der Weißenprozess Dropouts einschließt, kann er auch verwendet werden, um Bayes'sche Inferenz zu approximieren. Wir haben unseren Code als Open Source veröffentlicht und stellen Modelle sowie Docker-Images unter https://github.com/tae898/age-gender/ zur Verfügung.