DistilBERT, une version distillée de BERT : plus petite, plus rapide, moins coûteuse et plus légère

Alors que le transfert d'apprentissage à partir de modèles pré-entraînés à grande échelle devient de plus en plus courant dans le traitement du langage naturel (NLP), l'exploitation de ces grands modèles dans des environnements aux limites et/ou sous contraintes budgétaires computationnelles pour la formation ou l'inférence reste un défi. Dans ce travail, nous proposons une méthode pour pré-entraîner un modèle de représentation linguistique général plus petit, appelé DistilBERT, qui peut ensuite être affiné avec de bonnes performances sur une large gamme de tâches, comme ses homologues plus volumineux. Bien que la plupart des travaux antérieurs aient exploré l'utilisation de la distillation pour construire des modèles spécifiques à une tâche, nous exploitons la distillation des connaissances pendant la phase de pré-entraînement et montrons qu'il est possible de réduire la taille d'un modèle BERT de 40 % tout en conservant 97 % de ses capacités de compréhension du langage et en étant 60 % plus rapide. Pour tirer parti des biais inductifs appris par les grands modèles lors du pré-entraînement, nous introduisons une perte triple combinant la modélisation linguistique, la distillation et les pertes basées sur la distance cosinus. Notre modèle plus petit, plus rapide et plus léger est moins coûteux à pré-entraîner, et nous démontrons ses capacités pour les calculs sur appareil dans une expérience conceptuelle et une étude comparative sur appareil.