Q8BERT : BERT quantifié sur 8 bits

Récemment, les modèles pré-entraînés basés sur les transformateurs, tels que BERT et GPT, ont démontré des progrès considérables dans de nombreuses tâches de traitement du langage naturel (NLP). Toutefois, ces modèles comportent un grand nombre de paramètres. L’apparition de modèles encore plus volumineux et précis, comme GPT-2 et Megatron, indique une tendance vers des modèles pré-entraînés transformateurs de grande taille. Néanmoins, leur utilisation dans des environnements de production constitue une tâche complexe, exigeant des ressources importantes en calcul, en mémoire et en puissance. Dans ce travail, nous montrons comment réaliser une entraînement sensible à la quantification pendant la phase de fine-tuning de BERT, afin de compresser ce modèle par un facteur de 4 avec une perte d’exactitude minimale. En outre, le modèle quantifié ainsi obtenu peut accélérer la vitesse d’inférence si celui-ci est optimisé pour des matériels supportant les entiers 8 bits.