HyperAIHyperAI

Command Palette

Search for a command to run...

Q8BERT : BERT quantifié sur 8 bits

Ofir Zafrir Guy Boudoukh Peter Izsak Moshe Wasserblat

Résumé

Récemment, les modèles pré-entraînés basés sur les transformateurs, tels que BERT et GPT, ont démontré des progrès considérables dans de nombreuses tâches de traitement du langage naturel (NLP). Toutefois, ces modèles comportent un grand nombre de paramètres. L’apparition de modèles encore plus volumineux et précis, comme GPT-2 et Megatron, indique une tendance vers des modèles pré-entraînés transformateurs de grande taille. Néanmoins, leur utilisation dans des environnements de production constitue une tâche complexe, exigeant des ressources importantes en calcul, en mémoire et en puissance. Dans ce travail, nous montrons comment réaliser une entraînement sensible à la quantification pendant la phase de fine-tuning de BERT, afin de compresser ce modèle par un facteur de 4 avec une perte d’exactitude minimale. En outre, le modèle quantifié ainsi obtenu peut accélérer la vitesse d’inférence si celui-ci est optimisé pour des matériels supportant les entiers 8 bits.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Q8BERT : BERT quantifié sur 8 bits | Articles | HyperAI