HyperAIHyperAI

Command Palette

Search for a command to run...

Differenzierbare Modellkompression mittels Pseudo-Quantisierungsrauschen

Alexandre Défossez Yossi Adi Gabriel Synnaeve

Zusammenfassung

Wir stellen DiffQ vor, eine differenzierbare Methode zur Modellkompression für die Quantisierung von Modellparametern ohne Gradientenapproximationen (z. B. Straight-Through-Estimator). Wir schlagen vor, während des Trainings unabhängigen, pseudo-quantisierten Rauschanteil zu den Modellparametern hinzuzufügen, um die Wirkung eines Quantisierungsoperators zu approximieren. DiffQ ist sowohl bezüglich der unquantisierten Gewichte als auch bezüglich der Anzahl der verwendeten Bits differenzierbar. Bei Verwendung einer einzigen Hyperparameter, der zwischen Größe des quantisierten Modells und Genauigkeit abgewogen wird, optimiert DiffQ in einem end-to-end-Trainingsprozess die Anzahl der Bits pro einzelnen Gewicht oder pro Gewichtsgruppen. Experimentell bestätigen wir, dass unsere Methode auf mehreren Benchmarks und Architekturen für Bildklassifikation, Sprachmodellierung und Audio-Quellentrennung mit STE-basierten Quantisierungstechniken wettbewerbsfähig ist. Beispielsweise komprimiert DiffQ ein 12-Schichten-Transformer-basiertes Modell auf dem ImageNet-Datensatz um mehr als den Faktor 8 (durchschnittlich weniger als 4 Bit Genauigkeit pro Gewicht) mit einem Genauigkeitsverlust von lediglich 0,3 %. Der Quellcode ist unter github.com/facebookresearch/diffq verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Differenzierbare Modellkompression mittels Pseudo-Quantisierungsrauschen | Paper | HyperAI