Sparse Training durch Steigerung der Pruning-Plastizität mittels Neuroregeneration

Arbeiten zum Lottery-Ticket-Hypothesen-Modell (LTH) und zur Single-Shot-Netzwerk-Pruning-Methode (SNIP) haben derzeit erhebliches Interesse an der post-training-Pruning (iteratives Magnituden-Pruning) und der pre-training-Pruning (Pruning zum Initialisierungszeitpunkt) geweckt. Die erste Methode leidet unter einem extrem hohen Rechenaufwand, während die zweite häufig mit unzureichender Leistung kämpft. Im Gegensatz dazu wurde während des Trainings durchgeführtes Pruning – eine Klasse von Pruning-Methoden, die gleichzeitig Trainings- und Inferenz-Effizienz sowie vergleichbare Leistung bietet – bisher vergleichsweise wenig erforscht. Um das während des Trainings erfolgende Pruning besser zu verstehen, untersuchen wir quantitativ die Wirkung des Pruning während des gesamten Trainingsprozesses aus der Perspektive der Pruning-Plastizität (der Fähigkeit des prunten Netzwerks, die ursprüngliche Leistung wiederherzustellen). Die Pruning-Plastizität ermöglicht es, mehrere andere empirische Beobachtungen im Zusammenhang mit dem Pruning von neuronalen Netzen in der Literatur zu erklären. Weiterhin stellen wir fest, dass die Pruning-Plastizität erheblich durch die Einführung eines gehirngestützten Mechanismus namens Neuroregeneration verbessert werden kann, d. h. durch die Wiederherstellung der gleichen Anzahl an Verbindungen wie entfernt. Wir entwickeln eine neuartige graduell-Magnituden-Pruning-Methode, die als „Gradual Pruning with Zero-Cost Neuroregeneration“ (GraNet) bezeichnet wird, welche die derzeitige State-of-the-Art-Leistung übertrifft. Besonders beeindruckend ist, dass ihre sparse-to-sparse-Version erstmals die Leistung beim sparse-to-sparse-Training über verschiedene dense-to-sparse-Methoden hinaus mit ResNet-50 auf ImageNet steigert, ohne die Trainingszeit zu verlängern. Alle Quellcodes werden unter https://github.com/Shiweiliuiiiiiii/GraNet veröffentlicht.