Benötigen wir tatsächlich eine dichte Überparameterisierung? Zeitgerechte Überparameterisierung bei sparsamer Training

In diesem Paper stellen wir einen neuen Ansatz zur Schulung tiefer neuronaler Netze vor, die state-of-the-art Leistung erzielen, ohne auf die kostenintensive Überparameterisierung zurückgreifen zu müssen. Hierzu führen wir den Begriff der In-Time-Überparameterisierung (ITOP) im Kontext seltener (sparse) Training ein. Ausgehend von einem zufällig sparsen Netzwerk und durch kontinuierliche Exploration verschiedener sparsamer Verbindungsstrukturen während des Trainings ermöglicht unsere Methode eine Überparameterisierung im Raum-Zeit-Manifold. Dadurch wird die Lücke in der Ausdruckskraft zwischen seltenem und dichtem Training geschlossen. Wir nutzen ITOP zudem, um die zugrundeliegende Mechanik des Dynamic Sparse Training (DST) besser zu verstehen, und zeigen, dass die Vorteile von DST darauf beruhen, dass während des Suchprozesses nach der optimalen sparsen Verbindungskonfiguration über die Zeit hinweg alle möglichen Parameter berücksichtigt werden können. Solange während des Trainings ausreichend Parameter zuverlässig erkundet wurden, kann DST das dichte neuronale Netzwerk erheblich überflügeln. Wir präsentieren eine Reihe von Experimenten, die unsere Hypothese unterstützen und eine state-of-the-art Leistung bei seltener Training mit ResNet-50 auf ImageNet erzielen. Eindrucksvollerweise erreicht unsere Methode bei extremen Sparsitätsgraden eine dominierende Performance gegenüber Methoden, die auf Überparameterisierung basieren. Beim Training auf CIFAR-100 kann unsere Methode selbst bei einer extremen Sparsität von 98 % die Leistung des dichten Modells erreichen. Der Quellcode ist verfügbar unter: https://github.com/Shiweiliuiiiiiii/In-Time-Over-Parameterization.