Effiziente Sparsifizierung neuronaler Netze mit globaler Sparsitätsbeschränkung

Gewichtspruning ist eine effektive Technik, um die Modellgröße und die Inferenzzeit tiefer neuronaler Netze bei der praktischen Anwendung zu reduzieren. Da jedoch die Größenordnungen und relative Bedeutung der Gewichte zwischen den verschiedenen Schichten eines neuronalen Netzes stark variieren, beruhen bestehende Methoden entweder auf manueller Abstimmung oder auf handgefertigten heuristischen Regeln, um für jede Schicht einzeln geeignete Auslassraten zu bestimmen. Dieser Ansatz führt im Allgemeinen zu suboptimalen Ergebnissen. In diesem Paper stellen wir eine effektive Methode zur Netzwerk-Sparsifizierung vor, genannt probabilistisches Masking (ProbMask), die direkt im Wahrscheinlichkeitsraum arbeitet und eine natürliche Sparsifizierungsformulierung unter globaler Sparsitätsbeschränkung löst. Der zentrale Ansatz besteht darin, die Wahrscheinlichkeit als globale Kriterium für alle Schichten einzusetzen, um die Gewichtsbedeutung zu messen. Ein vorteilhafter Aspekt von ProbMask ist, dass die Menge an Gewichtsredundanz automatisch über unsere Beschränkung gelernt werden kann, wodurch das Problem der individuellen Abstimmung der Auslassraten für unterschiedliche Schichten im Netzwerk vermieden wird. Umfangreiche experimentelle Ergebnisse auf CIFAR-10/100 und ImageNet zeigen, dass unsere Methode äußerst effektiv ist und bestehende State-of-the-Art-Methoden signifikant übertrifft, insbesondere bei hohen Auslassraten. Besonders bemerkenswert ist, dass die Lücke der Top-1-Accuracy zwischen unserem ProbMask und bestehenden Methoden bis zu 10 % betragen kann. Als Nebenprodukt zeigen wir außerdem, dass ProbMask auch äußerst effektiv bei der Identifizierung von Supermasken ist, also von Teilnetzen mit hoher Leistungsfähigkeit in zufällig gewichteten dichten neuronalen Netzen.