Compression différentiable de modèles par bruit de quantification pseudo

Nous proposons DiffQ, une méthode différentiable pour la compression de modèles, permettant la quantification des paramètres du modèle sans recourir à des approximations de gradients (par exemple, l’estimateur Straight Through, STE). Nous suggérons d’ajouter un bruit de quantification pseudo-indépendant aux paramètres du modèle pendant l’entraînement, afin d’approximer l’effet d’un opérateur de quantification. DiffQ est différentiable à la fois par rapport aux poids non quantifiés et au nombre de bits utilisés. À l’aide d’un seul hyperparamètre équilibrant la taille du modèle quantifié et sa précision, DiffQ optimise le nombre de bits attribués à chaque poids individuel ou à des groupes de poids, dans un cadre d’entraînement end-to-end. Nous avons expérimentalement vérifié que notre méthode est compétitive avec les techniques de quantification basées sur STE sur plusieurs benchmarks et architectures, pour des tâches de classification d’images, de modélisation du langage et de séparation de sources audio. Par exemple, sur le jeu de données ImageNet, DiffQ compresse un modèle basé sur un transformateur de 12 couches par un facteur supérieur à 8 (moins de 4 bits de précision en moyenne par poids), avec une perte de précision modélisée de seulement 0,3 %. Le code est disponible à l’adresse github.com/facebookresearch/diffq.