vor 18 Tagen

Wie man Dropout korrekt auf Residual Networks mit Batch Normalization verwendet

Bum Jun Kim, Hyeyeon Choi, Hyeonah Jang, Donggeon Lee, Sang Woo Kim

Abstract

Zur stabilen Optimierung tiefer neuronaler Netze werden Regularisierungsmethoden wie Dropout und Batch Normalization in verschiedenen Aufgaben eingesetzt. Dennoch wurde die korrekte Stelle zur Anwendung von Dropout selten diskutiert, und unterschiedliche Positionen werden je nach Praktiker verwendet. In dieser Studie untersuchen wir die korrekte Position für die Anwendung von Dropout. Wir zeigen, dass bei einem Residualnetzwerk mit Batch Normalization die Anwendung von Dropout an bestimmten Positionen die Leistung erhöht, während sie an anderen Positionen die Leistung verringert. Auf Basis einer theoretischen Analyse geben wir folgende Empfehlung für die korrekte Position der Dropout-Anwendung an: Einen Dropout nach der letzten Batch Normalization, aber vor der letzten Gewichtsschicht im Residualzweig anwenden. Wir liefern detaillierte theoretische Erklärungen zur Begründung dieser Empfehlung und belegen sie durch Modultests. Darüber hinaus untersuchen wir die korrekte Position von Dropout im Kopfbereich, der die endgültige Vorhersage erzeugt. Obwohl die derzeitige Konvention darin besteht, Dropout nach dem globalen Durchschnittspooling anzuwenden, zeigen wir, dass die Anwendung von Dropout vor dem globalen Durchschnittspooling zu einer stabileren Ausgabe führt. Die vorgeschlagenen Leitlinien werden durch Experimente mit verschiedenen Datensätzen und Modellen validiert.