Apprentissage de la Taille des Pas pour la Quantification

Les réseaux profonds exécutés avec des opérations de faible précision au moment de l'inférence offrent des avantages en termes de puissance et d'espace par rapport aux alternatives à haute précision, mais ils doivent surmonter le défi de maintenir une haute précision lorsque la précision diminue. Dans cet article, nous présentons une méthode pour entraîner ces réseaux, appelée Quantification avec Apprentissage du Pas (Learned Step Size Quantization), qui atteint la plus haute précision à ce jour sur le jeu de données ImageNet lorsqu'on utilise des modèles, issus de diverses architectures, avec des poids et des activations quantifiés à 2, 3 ou 4 bits de précision, et qui peut entraîner des modèles à 3 bits atteignant la précision de base à pleine précision. Notre approche s'appuie sur les méthodes existantes pour apprendre les poids dans les réseaux quantifiés en améliorant la configuration du quantificateur lui-même. Plus précisément, nous introduisons un moyen novateur d'estimer et d'échelonner le gradient de la perte de tâche à chaque étape du quantificateur des couches de poids et d'activations, afin qu'il puisse être appris conjointement avec les autres paramètres du réseau. Cette méthode fonctionne avec différents niveaux de précision selon les besoins du système donné et ne nécessite qu'une modification simple du code d'entraînement existant.