Erweiterte Batch-Normalisierung

Batch Normalization (BN) ist zu einer Standardtechnik für das Training moderner tiefer Netzwerke geworden. Ihre Wirksamkeit nimmt jedoch ab, wenn die Batch-Größe kleiner wird, da die Schätzung der Batch-Statistiken ungenauer wird. Dies behindert die Anwendung von Batch Normalization bei 1) dem Training größerer Modelle, die aufgrund begrenzter Speicherkapazität kleine Batches erfordern, und 2) dem Training auf mobilen oder eingebetteten Geräten mit begrenztem Speicherressourcen. In diesem Paper stellen wir eine einfache, aber effektive Methode vor, die sogenannte erweiterte Batch Normalization (Extended Batch Normalization, EBN). Für Feature Maps im NCHW-Format berechnet die erweiterte Batch Normalization den Mittelwert entlang der Dimensionen (N, H, W), wie dies bei der herkömmlichen Batch Normalization der Fall ist, um den Vorteil der Batch Normalization beizubehalten. Um das durch kleine Batch-Größen verursachte Problem zu mildern, berechnet die erweiterte Batch Normalization die Standardabweichung entlang der Dimensionen (N, C, H, W), wodurch die Anzahl der zur Berechnung der Standardabweichung herangezogenen Samples vergrößert wird. Wir vergleichen die erweiterte Batch Normalization mit der herkömmlichen Batch Normalization und der Group Normalization anhand der Datensätze MNIST, CIFAR-10/100, STL-10 und ImageNet. Die Experimente zeigen, dass die erweiterte Batch Normalization das Problem der Batch Normalization bei kleiner Batch-Größe effektiv abmildert und gleichzeitig Leistungen erzielt, die denen der Batch Normalization bei großer Batch-Größe nahekommen.