Gruppen-Fisher-Pruning für eine praktikable Netzwerkkompression

Die Kompression von Netzwerken wurde weithin untersucht, da sie die Speicher- und Rechenkosten während der Inferenz reduzieren kann. Allerdings berücksichtigen bisherige Methoden selten komplexe Strukturen wie Residual-Verbindungen, Gruppen- oder Depthwise-Konvolutionen sowie Feature-Pyramid-Netzwerke, bei denen die Kanäle mehrerer Schichten gekoppelt sind und gleichzeitig reduziert werden müssen. In diesem Artikel präsentieren wir einen allgemeinen Ansatz zur Kanalpruning-Methode, der auf verschiedene komplexe Strukturen anwendbar ist. Insbesondere schlagen wir einen Algorithmus zur Schichtgruppierung vor, um gekoppelte Kanäle automatisch zu identifizieren. Anschließend leiten wir eine einheitliche Metrik basierend auf der Fisher-Information ab, um die Bedeutung eines einzelnen Kanals sowie gekoppelter Kanäle zu bewerten. Darüber hinaus stellen wir fest, dass die Beschleunigung der Inferenz auf GPUs stärker mit der Reduktion des Speicherverbrauchs als mit der Reduktion der FLOPs korreliert ist; daher nutzen wir den Speicherreduktionsbeitrag jedes Kanals, um die Bedeutung zu normalisieren. Unser Ansatz lässt sich zur Reduktion beliebiger Strukturen, einschließlich solcher mit gekoppelten Kanälen, einsetzen. Wir führen umfangreiche Experimente an verschiedenen Backbone-Architekturen durch, darunter die klassischen ResNet- und ResNeXt-Modelle, das mobilfreundliche MobileNetV2 sowie das NAS-basierte RegNet, sowohl für die Bildklassifikation als auch für die Objekterkennung, ein Bereich, der bisher unterrepräsentiert ist. Die experimentellen Ergebnisse bestätigen, dass unsere Methode komplexe Netzwerke effektiv komprimieren kann, wodurch die Inferenzgeschwindigkeit deutlich steigt, ohne die Genauigkeit zu beeinträchtigen.