HyperAIHyperAI
vor 2 Monaten

Parameter-Wiederinitialisierung durch zyklische Batch-Größen-Pläne

Norman Mu; Zhewei Yao; Amir Gholami; Kurt Keutzer; Michael Mahoney
Parameter-Wiederinitialisierung durch zyklische Batch-Größen-Pläne
Abstract

Die optimale Initialisierung von Parametern bleibt ein entscheidendes Problem für das Training von neuronalen Netzen. Eine unzureichende Gewichtsinitialisierung kann dazu führen, dass das Training länger dauert und/oder zu suboptimalen Lösungen konvergiert. In diesem Beitrag schlagen wir eine Methode der Gewichtsreinitialisierung vor, die durch wiederholtes Anwärmen (annealing) und Hinzufügen von Rauschen (noise injection) im Trainingsprozess umgesetzt wird. Diese Methode wird durch einen zyklischen Batch-Größenplan implementiert, der sich aus einer bayesianischen Perspektive des Trainings von neuronalen Netzen ableitet. Wir bewerten unsere Methoden anhand umfangreicher Experimente auf Aufgaben im Bereich der Sprachmodellierung, natürlichsprachlicher Inferenz und Bildklassifizierung. Wir zeigen die Fähigkeit unserer Methode auf, die Leistung der Sprachmodellierung um bis zu 7,91 Perplexität zu verbessern und die Anzahl der Trainingsiterationen um bis zu 61 % zu reduzieren. Zudem demonstrieren wir ihre Flexibilität hinsichtlich der Möglichkeit zur Erstellung von Schnappschussensembles (snapshot ensembling) und ihrer Verwendbarkeit bei adversarialem Training.