Amélioration des réseaux neuronaux profonds multi-tâches par distillation de connaissances pour la compréhension du langage naturel

Ce document explore l'utilisation de la distillation de connaissances pour améliorer un Réseau Neuronal Profond Multi-Tâche (MT-DNN) (Liu et al., 2019) dans l'apprentissage de représentations textuelles à travers plusieurs tâches de compréhension du langage naturel. Bien que l'apprentissage par ensembles puisse améliorer les performances du modèle, le déploiement d'ensembles de grands réseaux neuronaux profonds tels que l'MT-DNN peut être extrêmement coûteux. Nous appliquons ici la méthode de distillation de connaissances (Hinton et al., 2015) dans le cadre de l'apprentissage multi-tâche. Pour chaque tâche, nous formons un ensemble de différents MT-DNNs (enseignants) qui surpassent tout modèle individuel, puis nous formons un seul MT-DNN (étudiant) par apprentissage multi-tâche pour \emph{distiller} les connaissances provenant de ces enseignants ensembles. Nous montrons que l'MT-DNN distillé surpasse significativement l'MT-DNN original sur 7 des 9 tâches du benchmark GLUE, portant le score du benchmark GLUE (modèle unique) à 83,7 % (amélioration absolue de 1,5 %\footnote{ Basé sur le classement GLUE disponible à https://gluebenchmark.com/leaderboard au 1er avril 2019.}). Le code source et les modèles pré-entraînés seront rendus publiquement disponibles sur https://github.com/namisan/mt-dnn.