HyperAIHyperAI
vor 16 Tagen

R2 Loss: Range Restriction Loss für Modellkompression und Quantisierung

Arnav Kundu, Chungkuk Yoo, Srijan Mishra, Minsik Cho, Saurabh Adya
R2 Loss: Range Restriction Loss für Modellkompression und Quantisierung
Abstract

Modellquantisierung und -kompression sind weit verbreitete Techniken, um den Ressourcenverbrauch bei der Inferenzzeit zu reduzieren. Obwohl aktuelle Ansätze bereits bei höheren Bitraten wie 4 Bit oder 8 Bit eine zufriedenstellende Genauigkeit erzielen konnten, bleibt die weitere Quantisierung bzw. Kompression eines Modells auf beispielsweise 1 Bit oder 2 Bit weiterhin herausfordernd. Um diese Herausforderung zu meistern, konzentrieren wir uns auf Ausreißer in den Gewichten eines vortrainierten Modells, die eine effektive Quantisierung mit niedrigeren Bitraten stören. In dieser Arbeit stellen wir die Range Restriction Loss (R2-Loss) vor, eine Methode zur Entwicklung von Modellen, die für eine niedrigbitige Quantisierung und Kompression geeignet sind, indem Ausreißer während des Vortrainings aus den Gewichten entfernt werden. Durch eine effektive Beschränkung des Gewichtsbereichs formen wir die Gesamtverteilung zu einer kompakten Struktur, um eine hohe Quantisierungsbitauflösung zu gewährleisten. Dadurch können Quantisierungs- und Kompressionsverfahren ihre begrenzten Darstellungskapazitäten effizienter nutzen. Wir führen drei verschiedene R2-Loss-Funktionen ein: die L-inf R2-Loss, ihre Erweiterung die Margin R2-Loss sowie eine neuartige Soft-Min-Max R2-Loss, die als Hilfsverlust während des Trainings mit voller Präzision eingesetzt werden können. Diese R2-Loss-Funktionen sind für unterschiedliche Anwendungsfälle geeignet: Die L-inf- und Margin R2-Loss sind besonders wirksam bei symmetrischer Quantisierung, während die Soft-Min-Max R2-Loss bei der Modellkompression bessere Ergebnisse erzielt. In unseren Experimenten zeigt die R2-Loss eine signifikante Verbesserung der Genauigkeit bei niedrigbitiger Quantisierung im Vergleich zu aktuellen Ansätzen wie post-training quantization (PTQ), quantization-aware training (QAT) und Modellkompressionstechniken. Mit der R2-Loss erreicht MobileNet-V2 bei 2-Bit-Gewichten und 8-Bit-Aktivierungen (PTQ) eine Genauigkeit von 59,49 % (gegenüber 50,66 % ohne R2-Loss), MobileNet-V1 bei 2-Bit-Gewichten und -Aktivierungen (QAT) 59,05 % (gegenüber 55,96 %), und ResNet18 bei 1-Bit-Gewichten eine Kompressionsgenauigkeit von 52,58 % (gegenüber 45,54 %).

R2 Loss: Range Restriction Loss für Modellkompression und Quantisierung | Neueste Forschungsarbeiten | HyperAI