HyperAIHyperAI
vor 4 Monaten

Sparse Networks from Scratch: Schnelleres Training ohne Leistungseinbußen

Tim Dettmers; Luke Zettlemoyer
Sparse Networks from Scratch: Schnelleres Training ohne Leistungseinbußen
Abstract

Wir demonstrieren die Möglichkeit des von uns als spärliches Lernen (sparse learning) bezeichneten Verfahrens: die beschleunigte Schulung tiefer neuronaler Netze, die während der gesamten Trainingsphase dünnbesetzte Gewichte aufrechterhalten, während sie gleichzeitig Leistungsgrade erreichen, die denen dicht besetzter Netze entsprechen. Dies erreichen wir durch die Entwicklung des spärlichen Schwungs (sparse momentum), eines Algorithmus, der exponentiell geglättete Gradienten (Schwung) verwendet, um Schichten und Gewichte zu identifizieren, die den Fehler effizient reduzieren. Der spärliche Schwung verteilt die entfernten Gewichte (pruned weights) über die Schichten nach dem Mittelwert der Schwunggrößen jeder Schicht. Innerhalb einer Schicht wächst der spärliche Schwung die Gewichte nach der Schwunggröße der Nullgewichte. Wir zeigen Spitzenleistungen im Bereich des spärlichen Lernens auf MNIST, CIFAR-10 und ImageNet, wobei wir den mittleren Fehler um 8 %, 15 % und 6 % relativ zu anderen spärlichen Algorithmen verringern. Darüber hinaus zeigen wir, dass der spärliche Schwung die Leistungsdurchmesser dicht besetzter Netze zuverlässig reproduziert und bis zu 5,61-mal schnelleres Training ermöglicht. In unserer Analyse legen Ablationstudien nahe, dass die Vorteile der Schwungumverteilung und -steigerung mit Tiefe und Größe des Netzes zunehmen. Zudem stellen wir fest, dass der spärliche Schwung gegenüber der Wahl seiner Hyperparameter unempfindlich ist, was darauf hinweist, dass er robust und einfach einzusetzen ist.