HyperAIHyperAI

Command Palette

Search for a command to run...

Compression différentiable de modèles par bruit de quantification pseudo

Alexandre Défossez Yossi Adi Gabriel Synnaeve

Résumé

Nous proposons DiffQ, une méthode différentiable pour la compression de modèles, permettant la quantification des paramètres du modèle sans recourir à des approximations de gradients (par exemple, l’estimateur Straight Through, STE). Nous suggérons d’ajouter un bruit de quantification pseudo-indépendant aux paramètres du modèle pendant l’entraînement, afin d’approximer l’effet d’un opérateur de quantification. DiffQ est différentiable à la fois par rapport aux poids non quantifiés et au nombre de bits utilisés. À l’aide d’un seul hyperparamètre équilibrant la taille du modèle quantifié et sa précision, DiffQ optimise le nombre de bits attribués à chaque poids individuel ou à des groupes de poids, dans un cadre d’entraînement end-to-end. Nous avons expérimentalement vérifié que notre méthode est compétitive avec les techniques de quantification basées sur STE sur plusieurs benchmarks et architectures, pour des tâches de classification d’images, de modélisation du langage et de séparation de sources audio. Par exemple, sur le jeu de données ImageNet, DiffQ compresse un modèle basé sur un transformateur de 12 couches par un facteur supérieur à 8 (moins de 4 bits de précision en moyenne par poids), avec une perte de précision modélisée de seulement 0,3 %. Le code est disponible à l’adresse github.com/facebookresearch/diffq.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp