Zur idealen Anzahl von Gruppen für isometrische Gradientenpropagation

Kürzlich wurden verschiedene Normalisierungsschichten vorgeschlagen, um die Stabilisierung des Trainings tiefer neuronaler Netze zu verbessern. Unter ihnen stellt die Group Normalization (GN) eine Verallgemeinerung von Layer Normalization und Instance Normalization dar, indem sie eine gewisse Freiheit bezüglich der Anzahl der Gruppen ermöglicht. Um jedoch die optimale Anzahl an Gruppen zu bestimmen, ist ein auf Probieren und Fehlern basierender Hyperparameter-Abstimmungsprozess erforderlich, der zeitaufwendig ist. In dieser Studie diskutieren wir eine sinnvolle Methode zur Festlegung der Anzahl der Gruppen. Zunächst stellen wir fest, dass die Anzahl der Gruppen das Gradientenverhalten der Group Normalization-Schicht beeinflusst. Aufgrund dieser Beobachtung leiten wir die ideale Anzahl an Gruppen ab, die die Gradientenskala kalibriert, um die Optimierung mittels Gradientenabstieg zu erleichtern. Die vorgeschlagene Anzahl an Gruppen ist theoretisch fundiert, architekturabhängig und ermöglicht eine angemessene, schichtweise Festlegung für alle Schichten. Das vorgeschlagene Verfahren zeigte in zahlreichen neuronalen Netzarchitekturen, Aufgaben und Datensätzen eine verbesserte Leistung gegenüber bestehenden Methoden.