Q-BERT : Quantification ultra-basse précision basée sur le hessien pour BERT

Les architectures fondées sur les transformateurs sont devenues des modèles de référence pour une large gamme de tâches de traitement du langage naturel. En particulier, les modèles basés sur BERT ont permis des gains significatifs en précision sur les tâches GLUE, CoNLL-03 et SQuAD. Toutefois, ces modèles BERT présentent une empreinte mémoire importante et une latence élevée, ce qui rend leur déploiement dans des environnements à ressources limitées particulièrement difficile. Dans ce travail, nous menons une analyse approfondie des modèles BERT fine-tunés en utilisant des informations de Hessienne du second ordre, et nous exploitons ces résultats pour proposer une nouvelle méthode de quantification des modèles BERT vers une précision ultra-basse. Plus précisément, nous introduisons un nouveau schéma de quantification par groupes, et nous utilisons une méthode mixte à précision basée sur la Hessienne afin de compresser davantage le modèle. Nous testons de manière exhaustive notre méthode proposée sur plusieurs tâches downstream de BERT : SST-2, MNLI, CoNLL-03 et SQuAD. Nous parvenons à atteindre des performances comparables à celles du modèle de référence, avec une perte maximale de performance de seulement 2,3 %, même en quantification ultra-basse jusqu’à 2 bits, ce qui correspond à une compression maximale des paramètres du modèle pouvant atteindre 13 fois, ainsi qu’une compression allant jusqu’à 4 fois pour les tables d’embeddings et les activations. Parmi toutes les tâches, nous observons la perte de performance la plus importante pour le modèle BERT fine-tuné sur SQuAD. En analysant les résultats de la Hessienne ainsi qu’en procédant à des visualisations, nous montrons que ce phénomène est lié au fait que la stratégie actuelle d’entraînement/fine-tuning de BERT ne converge pas pleinement sur SQuAD.