Command Palette
Search for a command to run...
Amélioration des réseaux neuronaux profonds multi-tâches par distillation de connaissances pour la compréhension du langage naturel
Amélioration des réseaux neuronaux profonds multi-tâches par distillation de connaissances pour la compréhension du langage naturel
Xiaodong Liu Pengcheng He Weizhu Chen Jianfeng Gao
Résumé
Ce document explore l'utilisation de la distillation de connaissances pour améliorer un Réseau Neuronal Profond Multi-Tâche (MT-DNN) (Liu et al., 2019) dans l'apprentissage de représentations textuelles à travers plusieurs tâches de compréhension du langage naturel. Bien que l'apprentissage par ensembles puisse améliorer les performances du modèle, le déploiement d'ensembles de grands réseaux neuronaux profonds tels que l'MT-DNN peut être extrêmement coûteux. Nous appliquons ici la méthode de distillation de connaissances (Hinton et al., 2015) dans le cadre de l'apprentissage multi-tâche. Pour chaque tâche, nous formons un ensemble de différents MT-DNNs (enseignants) qui surpassent tout modèle individuel, puis nous formons un seul MT-DNN (étudiant) par apprentissage multi-tâche pour \emph{distiller} les connaissances provenant de ces enseignants ensembles. Nous montrons que l'MT-DNN distillé surpasse significativement l'MT-DNN original sur 7 des 9 tâches du benchmark GLUE, portant le score du benchmark GLUE (modèle unique) à 83,7 % (amélioration absolue de 1,5 %\footnote{ Basé sur le classement GLUE disponible à https://gluebenchmark.com/leaderboard au 1er avril 2019.}). Le code source et les modèles pré-entraînés seront rendus publiquement disponibles sur https://github.com/namisan/mt-dnn.