HyperAIHyperAI
vor 9 Tagen

Differenzierbare Modellkompression mittels Pseudo-Quantisierungsrauschen

Alexandre Défossez, Yossi Adi, Gabriel Synnaeve
Differenzierbare Modellkompression mittels Pseudo-Quantisierungsrauschen
Abstract

Wir stellen DiffQ vor, eine differenzierbare Methode zur Modellkompression für die Quantisierung von Modellparametern ohne Gradientenapproximationen (z. B. Straight-Through-Estimator). Wir schlagen vor, während des Trainings unabhängigen, pseudo-quantisierten Rauschanteil zu den Modellparametern hinzuzufügen, um die Wirkung eines Quantisierungsoperators zu approximieren. DiffQ ist sowohl bezüglich der unquantisierten Gewichte als auch bezüglich der Anzahl der verwendeten Bits differenzierbar. Bei Verwendung einer einzigen Hyperparameter, der zwischen Größe des quantisierten Modells und Genauigkeit abgewogen wird, optimiert DiffQ in einem end-to-end-Trainingsprozess die Anzahl der Bits pro einzelnen Gewicht oder pro Gewichtsgruppen. Experimentell bestätigen wir, dass unsere Methode auf mehreren Benchmarks und Architekturen für Bildklassifikation, Sprachmodellierung und Audio-Quellentrennung mit STE-basierten Quantisierungstechniken wettbewerbsfähig ist. Beispielsweise komprimiert DiffQ ein 12-Schichten-Transformer-basiertes Modell auf dem ImageNet-Datensatz um mehr als den Faktor 8 (durchschnittlich weniger als 4 Bit Genauigkeit pro Gewicht) mit einem Genauigkeitsverlust von lediglich 0,3 %. Der Quellcode ist unter github.com/facebookresearch/diffq verfügbar.

Differenzierbare Modellkompression mittels Pseudo-Quantisierungsrauschen | Neueste Forschungsarbeiten | HyperAI