ZeroQ : Un Nouveau Cadre de Quantification sans Exemple Préalable

La quantification est une approche prometteuse pour réduire le temps d'inférence et l'emprise mémoire des réseaux de neurones. Cependant, la plupart des méthodes de quantification existantes nécessitent l'accès au jeu de données d'entraînement original pour effectuer un réentraînement pendant la quantification. Ceci est souvent impossible pour les applications traitant des données sensibles ou propriétaires, par exemple en raison de préoccupations liées à la confidentialité et à la sécurité. Les méthodes actuelles de quantification sans apprentissage utilisent différentes heuristiques pour résoudre ce problème, mais elles aboutissent à des performances médiocres, en particulier lors de la quantification à très basse précision. Nous proposons ici ZeroQ, un nouveau cadre de quantification sans apprentissage visant à remédier à cette situation. ZeroQ permet une quantification mixte sans accès aux données d'entraînement ou de validation. Cela est réalisé en optimisant un Jeu de Données Distillé (Distilled Dataset), conçu pour correspondre aux statistiques de la normalisation par lots (batch normalization) dans différentes couches du réseau. ZeroQ prend en charge tant la quantification uniforme que mixte. Pour cette dernière, nous introduisons une nouvelle méthode basée sur le frontière de Pareto pour déterminer automatiquement le paramètre de bits mixtes pour toutes les couches, sans recherche manuelle impliquée. Nous testons notre méthode proposée de manière exhaustive sur un ensemble diversifié de modèles, y compris ResNet18/50/152, MobileNetV2, ShuffleNet, SqueezeNext et InceptionV3 sur ImageNet, ainsi que RetinaNet-ResNet50 sur le jeu de données Microsoft COCO. En particulier, nous montrons que ZeroQ peut atteindre une précision 1,71\% supérieure sur MobileNetV2 par rapport à la méthode DFQ récemment proposée. De manière importante, ZeroQ présente un surcoût computationnel très faible et peut terminer l'ensemble du processus de quantification en moins de 30 secondes (0,5\% du temps d'entraînement d'une époque de ResNet50 sur ImageNet). Nous avons rendu open-source le cadre ZeroQ\footnote{https://github.com/amirgholami/ZeroQ}.