il y a 2 mois

L'Élève est devenu le Maître : Distillation d'Embeddings de Mots basée sur un Modèle Enseignant-Élève avec Apprentissage par Ensemble

Bonggun Shin; Hao Yang; Jinho D. Choi

Résumé

Les récentes avancées dans l'apprentissage profond ont facilité l'adoption de modèles neuronaux pour des applications réelles. En pratique, ces applications nécessitent souvent d'être déployées avec des ressources limitées tout en maintenant une haute précision. Cet article aborde le cœur des modèles neuronaux en traitement du langage naturel (NLP), les plongements de mots (word embeddings), et présente un nouveau cadre de distillation d'embeddings qui réduit considérablement la dimension des plongements de mots sans compromettre la précision. Une nouvelle approche d'ensemble par distillation est également proposée, permettant d'entraîner un modèle étudiant à haute efficacité en utilisant plusieurs modèles enseignants. Dans notre approche, les modèles enseignants ne jouent un rôle qu'au cours de l'entraînement, de sorte que le modèle étudiant fonctionne indépendamment sans recevoir de soutien des modèles enseignants lors du décodage, ce qui le rend 80 fois plus rapide et plus léger que d'autres méthodes typiques d'ensemble. Tous les modèles sont évalués sur sept jeux de données de classification de documents et montrent un avantage significatif par rapport aux modèles enseignants dans la plupart des cas. Notre analyse décrit une transformation instructive des plongements de mots issue de la distillation et suggère une direction future pour les approches d'ensemble utilisant des modèles neuronaux.