Netzwerkpruning, das zählt: Eine Fallstudie zu Wiedertrainingsvarianten

Netzwerkpruning ist eine effektive Methode zur Reduzierung der Rechenkosten überparametrisierter neuronaler Netzwerke für die Bereitstellung auf ressourcenschwachen Systemen. Neuere state-of-the-art-Techniken zur Nachtrainierung pruner Netzwerke, wie Weight Rewinding und Learning Rate Rewinding, haben sich gegenüber der traditionellen Feintuning-Technik bei der Wiederherstellung der verlorenen Genauigkeit als überlegen erwiesen (Renda et al., 2020), doch bisher ist unklar, was genau diese Leistungssteigerung verursacht. In dieser Arbeit führen wir umfangreiche Experimente durch, um die ungewöhnlich hohe Wirksamkeit des Learning Rate Rewinding zu überprüfen und zu analysieren. Wir stellen fest, dass der Erfolg von Learning Rate Rewinding auf der Verwendung eines großen Lernrates beruht. Ähnliche Phänomene beobachten wir bei anderen Lernraten-Schedules, die große Lernraten beinhalten, beispielsweise dem 1-Cycle-Lernraten-Schedule (Smith et al., 2019). Durch die gezielte Auswahl eines geeigneten Lernraten-Schedules bei der Nachtrainierung zeigen wir ein kontraintuitives Phänomen: Zufällig prunierte Netzwerke können sogar eine bessere Leistung erzielen als systematisch prunierte Netzwerke (die mit dem herkömmlichen Ansatz feinabgestimmt wurden). Unsere Ergebnisse unterstreichen die entscheidende Bedeutung des Lernraten-Schedules bei der Nachtrainierung pruner Netzwerke – ein Aspekt, der bei der praktischen Umsetzung von Netzwerkpruning häufig übersehen wird. Kurzzusammenfassung in einem Satz: Wir untersuchen die Wirkung verschiedener Nachtrainierungsmechanismen im Kontext des Prunings.