HyperAIHyperAI
vor 11 Tagen

LSQ+: Verbesserung der Low-Bit-Quantisierung durch lernbare Offset-Werte und eine bessere Initialisierung

Yash Bhalgat, Jinwon Lee, Markus Nagel, Tijmen Blankevoort, Nojun Kwak
LSQ+: Verbesserung der Low-Bit-Quantisierung durch lernbare Offset-Werte und eine bessere Initialisierung
Abstract

Im Gegensatz zu ReLU können neuere Aktivierungsfunktionen (wie Swish, H-swish, Mish), die häufig in effizienten Architekturen verwendet werden, ebenfalls negative Aktivierungswerte erzeugen, wobei die Verteilung der positiven und negativen Werte asymmetrisch ist. Typische lernbare Quantisierungsschemata [PACT, LSQ] gehen von einer nicht-negativen (unsigned) Quantisierung der Aktivierungen aus und quantisieren alle negativen Aktivierungen auf null, was zu einer erheblichen Leistungsverschlechterung führt. Die naive Verwendung einer vorzeichenbehafteten Quantisierung zur Berücksichtigung dieser negativen Werte erfordert ein zusätzliches Vorzeichenbit, was für Low-Bit-Quantisierung (2-, 3-, 4-Bit) kostspielig ist. Um dieses Problem zu lösen, schlagen wir LSQ+ vor, eine natürliche Erweiterung von LSQ, bei der wir ein allgemeines asymmetrisches Quantisierungsschema mit lernbaren Skalierungs- und Offset-Parametern einführen, das lernen kann, negative Aktivierungen angemessen zu berücksichtigen. Gradientenbasierte lernbare Quantisierungsschemata leiden zudem häufig unter hoher Instabilität oder Varianz der Endleistung während des Trainings, weshalb eine umfangreiche Hyperparameter-Tuning-Phase erforderlich ist, um eine zufriedenstellende Leistung zu erzielen. LSQ+ mildert dieses Problem durch eine MSE-basierte Initialisierung der Quantisierungsparameter. Wir zeigen, dass diese Initialisierung zu einer signifikant geringeren Varianz der Endleistung über mehrere Trainingsläufe hinweg führt. Insgesamt erzielt LSQ hervorragende Ergebnisse für EfficientNet und MixNet und übertrifft zudem bei der Low-Bit-Quantisierung von neuronalen Netzen mit Swish-Aktivierungen deutlich LSQ (z. B. +1,8 % bei W4A4-Quantisierung und bis zu +5,6 % bei W2A2-Quantisierung von EfficientNet-B0 auf dem ImageNet-Datensatz). So weit uns bekannt ist, ist dies die erste Arbeit, die solche Architekturen auf extrem niedrige Bitbreiten quantisiert.

LSQ+: Verbesserung der Low-Bit-Quantisierung durch lernbare Offset-Werte und eine bessere Initialisierung | Neueste Forschungsarbeiten | HyperAI