Prune Une Fois Pour Toutes : Modèles Linguistiques Pré-Entraînés Épars

Les modèles de langage basés sur Transformer sont largement utilisés dans diverses applications du traitement du langage naturel. Toutefois, ils sont peu efficaces et difficiles à déployer. Ces dernières années, de nombreux algorithmes de compression ont été proposés afin d’améliorer l’efficacité d’implémentation des grands modèles basés sur Transformer sur des matériels cibles. Dans ce travail, nous présentons une nouvelle méthode d’entraînement de modèles pré-entraînés Transformer à faible densité, en combinant la suppression de poids (weight pruning) et la distillation de modèle. Ces modèles pré-entraînés creux peuvent être utilisés pour l’apprentissage par transfert sur une large gamme de tâches tout en conservant leur structure creuse. Nous illustrons notre méthode sur trois architectures connues, en construisant des modèles pré-entraînés creux BERT-Base, BERT-Large et DistilBERT. Nous montrons comment les modèles pré-entraînés creux que nous avons entraînés transfèrent leurs connaissances à cinq tâches naturelles du traitement du langage en subissant une perte d’exactitude minimale. En outre, nous détaillons une méthode permettant de compresser davantage les poids de ces modèles creux jusqu’à une précision de 8 bits grâce à un entraînement sensible à la quantification (quantization-aware training). Par exemple, en fine-tunant notre modèle BERT-Large creux sur SQuADv1.1 et en le quantifiant à 8 bits, nous obtenons un ratio de compression de 40× pour l’encodeur avec une perte d’exactitude inférieure à 1 %. À notre connaissance, nos résultats établissent le meilleur rapport compression-précision pour BERT-Base, BERT-Large et DistilBERT.