vor 8 Tagen

Soft Threshold Weight Reparameterization für lernbare Sparsität

Aditya Kusupati, Vivek Ramanujan, Raghav Somani, Mitchell Wortsman, Prateek Jain, Sham Kakade, Ali Farhadi

Abstract

Sparsität in tiefen neuronalen Netzen (DNNs) wird ausgiebig untersucht, wobei der Fokus auf der Maximierung der Vorhersagegenauigkeit unter Berücksichtigung eines insgesamt vorgegebenen Parameterbudgets liegt. Bestehende Methoden basieren auf uniformen oder heuristischen, nicht-uniformen Sparsitätsbudgets, die zu suboptimaler, schichtweiser Parameterzuweisung führen und damit entweder a) eine geringere Vorhersagegenauigkeit oder b) höhere Inferenzkosten (FLOPs) verursachen. In dieser Arbeit wird Soft Threshold Reparameterization (STR) vorgestellt, eine neuartige Anwendung des Soft-Threshold-Operators auf DNN-Gewichte. STR induziert sparsitätsbasierte Strukturen nahtlos während des Lernprozesses und lernt gleichzeitig Pruning-Schwellenwerte, wodurch ein nicht-uniformes Sparsitätsbudget entsteht. Unser Ansatz erreicht den Stand der Technik hinsichtlich der Genauigkeit bei unstrukturierter Sparsität in CNNs (ResNet50 und MobileNetV1 auf ImageNet-1K) und erzielt zusätzlich empirisch eine Reduktion der FLOPs um bis zu 50 % durch die Lernung nicht-uniformer Budgets. Insbesondere steigert STR die Genauigkeit gegenüber bestehenden Ergebnissen im extrem sparsen (99 %) Bereich um bis zu 10 % und kann zudem zur Erzeugung von niedrig-rangigen (strukturierten) Sparsitätsstrukturen in RNNs eingesetzt werden. Kurz gesagt, stellt STR ein einfaches, aber effektives Mechanismus dar, der wirksame Sparsitätsbudgets lernt, die sich deutlich von gängigen Heuristiken unterscheiden. Der Quellcode, vortrainierte Modelle sowie die erlernten Sparsitätsbudgets sind unter https://github.com/RAIVNLab/STR verfügbar.