HyperAIHyperAI
il y a 16 jours

TinyBERT : Distillation de BERT pour la compréhension du langage naturel

Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu
TinyBERT : Distillation de BERT pour la compréhension du langage naturel
Résumé

La pré-formation des modèles linguistiques, telle que BERT, a considérablement amélioré les performances de nombreuses tâches de traitement du langage naturel. Toutefois, les modèles linguistiques pré-entraînés sont généralement très coûteux en ressources computationnelles, ce qui rend difficile leur exécution efficace sur des dispositifs à ressources limitées. Afin d’accélérer l’inférence et de réduire la taille du modèle tout en préservant une haute précision, nous proposons tout d’abord une nouvelle méthode de distillation de Transformer spécialement conçue pour la distillation de connaissances (KD) des modèles basés sur Transformer. Grâce à cette nouvelle méthode de KD, une grande quantité de connaissances encodées dans un grand modèle enseignant BERT peut être efficacement transférée vers un petit modèle étudiant, Tiny-BERT. Ensuite, nous introduisons un nouveau cadre d’apprentissage en deux étapes pour TinyBERT, qui applique la distillation de Transformer à la fois durant les phases de pré-formation et d’apprentissage spécifique à la tâche. Ce cadre garantit que TinyBERT parvient à capturer à la fois les connaissances générales du domaine et les connaissances spécifiques à la tâche présentes dans BERT.TinyBERT à 4 couches s’avère empiriquement très efficace, atteignant plus de 96,8 % des performances de son modèle enseignant BERTBASE sur le benchmark GLUE, tout en étant 7,5 fois plus petit et 9,4 fois plus rapide à l’inférence. TinyBERT à 4 couches est également nettement supérieur aux meilleures méthodes de distillation de BERT à 4 couches existantes, avec seulement environ 28 % des paramètres et environ 31 % du temps d’inférence de ces dernières. En outre, TinyBERT à 6 couches atteint des performances équivalentes à celles de son modèle enseignant BERTBASE.

TinyBERT : Distillation de BERT pour la compréhension du langage naturel | Articles de recherche récents | HyperAI