AC/DC: Alternierendes Komprimiertes/Entkomprimiertes Training Tiefer Neuronaler Netze

Die steigenden rechnerischen Anforderungen tiefer neuronaler Netze (DNNs) haben ein erhebliches Interesse an sparsen, dennoch genauen DNN-Modellen hervorgerufen. Neuere Arbeiten haben den noch schwierigeren Fall des sparsen Trainings untersucht, bei dem die DNN-Gewichte möglichst bereits spärlich sind, um die Rechenkosten während des Trainings zu reduzieren. Bestehende Methoden zum sparsen Training sind oft empirisch und weisen gegenüber der dichten Baseline häufig eine geringere Genauigkeit auf. In diesem Paper stellen wir einen allgemeinen Ansatz namens Alternating Compressed/DeCompressed (AC/DC) Training von DNNs vor, demonstrieren die Konvergenz einer Variante des Algorithmus und zeigen, dass AC/DC bei vergleichbaren rechnerischen Budgets die Genauigkeit bestehender Methoden zum sparsen Training übertrifft; bei hohen Sparsitätsgraden übertrifft AC/DC sogar Methoden, die auf prätrainierte dichte Modelle mit hoher Genauigkeit angewiesen sind. Ein wesentlicher Vorteil von AC/DC ist, dass es die gleichzeitige Trainierung dichter und sparser Modelle ermöglicht, wodurch am Ende des Trainings präzise Paare aus dichten und sparsen Modellen entstehen. Dies ist praktisch nützlich, da komprimierte Varianten in ressourcenbeschränkten Umgebungen ohne erneuten vollständigen Trainingsprozess eingesetzt werden können, und bietet zudem Einblicke in die Genauigkeitslücke zwischen dichten und komprimierten Modellen. Der Quellcode ist unter folgender URL verfügbar: https://github.com/IST-DASLab/ACDC.