vor 2 Monaten

Iterative Normalisierung: Über die Standardisierung hinaus zur effizienten Whitening

Lei Huang; Yi Zhou; Fan Zhu; Li Liu; Ling Shao

Abstract

Batch Normalization (BN) wird weit verbreitet eingesetzt, um das Training von neuronalen Netzen zu beschleunigen und deren Generalisierungsfähigkeit durch die Durchführung einer Standardisierung innerhalb von Minibatches zu verbessern. Decorrelated Batch Normalization (DBN) steigert diese Effektivität weiter, indem sie eine Whitening-Operation durchführt. Allerdings hängt DBN stark entweder von einer großen Batch-Größe ab oder leidet an der ineffizienten Eigenwertzerlegung auf GPUs. Wir schlagen Iterative Normalization (IterNorm) vor, die Newtonsche Iterationen für eine viel effizientere Whitening-Operation einsetzt, während gleichzeitig die Eigenwertzerlegung vermieden wird. Darüber hinaus führen wir eine umfassende Studie durch, um zu zeigen, dass IterNorm einen besseren Kompromiss zwischen Optimierung und Generalisierung bietet, sowohl theoretisch als auch experimentell gestützt. Zu diesem Zweck führen wir Stochastic Normalization Disturbance (SND) ein, das die inhärente stochastische Unsicherheit der Stichproben bei der Anwendung von Normalisierungsoperationen misst. Mit der Unterstützung des SND bieten wir natürliche Erklärungen für mehrere Phänomene aus der Perspektive der Optimierung, z.B. warum gruppenweise Whitening in DBN im Allgemeinen besser abschneidet als vollständiges Whitening und warum die Genauigkeit von BN mit verkleinerten Batch-Größen abnimmt. Wir demonstrieren die konsequent verbesserte Leistung von IterNorm durch umfangreiche Experimente auf CIFAR-10 und ImageNet im Vergleich zu BN und DBN.