HyperAIHyperAI
il y a 11 jours

LSQ+: Amélioration de la quantification à faible précision grâce à des décalages apprenables et une meilleure initialisation

Yash Bhalgat, Jinwon Lee, Markus Nagel, Tijmen Blankevoort, Nojun Kwak
LSQ+: Amélioration de la quantification à faible précision grâce à des décalages apprenables et une meilleure initialisation
Résumé

Contrairement à ReLU, les nouvelles fonctions d’activation (comme Swish, H-swish, Mish), fréquemment utilisées dans les architectures efficaces populaires, peuvent également produire des valeurs d’activation négatives, avec des plages positive et négative déséquilibrées. Les schémas classiques de quantification apprenable [PACT, LSQ] supposent une quantification non signée pour les activations et quantifient toutes les activations négatives à zéro, ce qui entraîne une perte significative de performance. L’usage naïf de la quantification signée pour accommoder ces valeurs négatives nécessite un bit de signe supplémentaire, ce qui s’avère coûteux en cas de quantification à très faible précision (2, 3 ou 4 bits). Pour résoudre ce problème, nous proposons LSQ+, une extension naturelle de LSQ, dans laquelle nous introduisons un schéma de quantification asymétrique général, doté de paramètres d’échelle et d’offset apprenables, capables d’adapter automatiquement les activations négatives. Les schémas de quantification apprenables basés sur les gradients souffrent également fréquemment d’une instabilité élevée ou d’une forte variance dans les performances finales, nécessitant une calibration minutieuse des hyperparamètres pour atteindre une performance satisfaisante. LSQ+ atténue ce problème grâce à une stratégie d’initialisation basée sur l’erreur quadratique moyenne (MSE) des paramètres de quantification. Nous démontrons que cette initialisation permet de réduire considérablement la variance des performances finales sur plusieurs exécutions d’entraînement. Globalement, LSQ+ obtient des résultats de pointe pour EfficientNet et MixNet, et surpasse significativement LSQ dans le cadre de la quantification à très bas bit-width des réseaux de neurones utilisant des activations Swish (par exemple, une amélioration de 1,8 % avec une quantification W4A4, et jusqu’à 5,6 % avec une quantification W2A2 sur EfficientNet-B0 sur le jeu de données ImageNet). À notre connaissance, ce travail constitue le premier à quantifier de telles architectures à des largeurs de bits extrêmement réduites.

LSQ+: Amélioration de la quantification à faible précision grâce à des décalages apprenables et une meilleure initialisation | Articles de recherche récents | HyperAI