Quantisierung und Pruning für die Kompression und Regularisierung von neuronalen Netzen

Tiefere neuronale Netze sind typischerweise zu rechenintensiv, um in Echtzeit auf herkömmlicher Hardware und energiearmen Geräten ausgeführt zu werden. In diesem Paper untersuchen wir die Reduzierung der rechnerischen und speicherbasierten Anforderungen neuronaler Netze durch Netzwerkpruning und Quantisierung. Wir bewerten deren Wirksamkeit an großen Netzwerken wie AlexNet im Vergleich zu jüngeren kompakten Architekturen: ShuffleNet und MobileNet. Unsere Ergebnisse zeigen, dass Pruning und Quantisierung diese Netzwerke auf weniger als die Hälfte ihrer ursprünglichen Größe komprimiert und deren Effizienz verbessert, insbesondere bei MobileNet mit einer Geschwindigkeitssteigerung um das 7-fache. Zudem zeigen wir, dass Pruning nicht nur die Anzahl der Parameter in einem Netzwerk verringert, sondern auch zur Korrektur von Overfitting beitragen kann.