HMQ : Bloc de quantification à précision mixte友好的 matériel pour les CNN

Les travaux récents en quantification de réseaux ont permis d'obtenir des résultats de pointe en utilisant une quantification à précision mixte. Une exigence fondamentale pour de nombreuses implémentations matérielles efficaces sur dispositifs embarqués est que leurs quantificateurs soient uniformes et reposent sur des seuils de puissance de deux. Dans ce travail, nous introduisons le bloc de quantification à précision mixte adapté au matériel (HMQ, Hardware Friendly Mixed Precision Quantization Block), afin de satisfaire cette contrainte. Le HMQ est un bloc de quantification à précision mixte qui réutilise l'estimateur Gumbel-Softmax pour en faire un estimateur lisse d'une paire de paramètres de quantification : la largeur de bit et le seuil. Grâce à cette approche, le HMQ explore un espace fini de schémas de quantification. Expérimentalement, nous appliquons le HMQ à la quantification de modèles de classification entraînés sur CIFAR10 et ImageNet. Sur ImageNet, nous quantifions quatre architectures différentes et montrons que, malgré les contraintes supplémentaires imposées à notre schéma de quantification, nous obtenons des résultats compétitifs, voire, dans certains cas, parmi les meilleurs actuels.