HyperAIHyperAI
il y a 11 jours

Q8BERT : BERT quantifié sur 8 bits

Ofir Zafrir, Guy Boudoukh, Peter Izsak, Moshe Wasserblat
Q8BERT : BERT quantifié sur 8 bits
Résumé

Récemment, les modèles pré-entraînés basés sur les transformateurs, tels que BERT et GPT, ont démontré des progrès considérables dans de nombreuses tâches de traitement du langage naturel (NLP). Toutefois, ces modèles comportent un grand nombre de paramètres. L’apparition de modèles encore plus volumineux et précis, comme GPT-2 et Megatron, indique une tendance vers des modèles pré-entraînés transformateurs de grande taille. Néanmoins, leur utilisation dans des environnements de production constitue une tâche complexe, exigeant des ressources importantes en calcul, en mémoire et en puissance. Dans ce travail, nous montrons comment réaliser une entraînement sensible à la quantification pendant la phase de fine-tuning de BERT, afin de compresser ce modèle par un facteur de 4 avec une perte d’exactitude minimale. En outre, le modèle quantifié ainsi obtenu peut accélérer la vitesse d’inférence si celui-ci est optimisé pour des matériels supportant les entiers 8 bits.

Q8BERT : BERT quantifié sur 8 bits | Articles de recherche récents | HyperAI