HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration des réseaux neuronaux profonds multi-tâches par distillation de connaissances pour la compréhension du langage naturel

Xiaodong Liu Pengcheng He Weizhu Chen Jianfeng Gao

Résumé

Ce document explore l'utilisation de la distillation de connaissances pour améliorer un Réseau Neuronal Profond Multi-Tâche (MT-DNN) (Liu et al., 2019) dans l'apprentissage de représentations textuelles à travers plusieurs tâches de compréhension du langage naturel. Bien que l'apprentissage par ensembles puisse améliorer les performances du modèle, le déploiement d'ensembles de grands réseaux neuronaux profonds tels que l'MT-DNN peut être extrêmement coûteux. Nous appliquons ici la méthode de distillation de connaissances (Hinton et al., 2015) dans le cadre de l'apprentissage multi-tâche. Pour chaque tâche, nous formons un ensemble de différents MT-DNNs (enseignants) qui surpassent tout modèle individuel, puis nous formons un seul MT-DNN (étudiant) par apprentissage multi-tâche pour \emph{distiller} les connaissances provenant de ces enseignants ensembles. Nous montrons que l'MT-DNN distillé surpasse significativement l'MT-DNN original sur 7 des 9 tâches du benchmark GLUE, portant le score du benchmark GLUE (modèle unique) à 83,7 % (amélioration absolue de 1,5 %\footnote{ Basé sur le classement GLUE disponible à https://gluebenchmark.com/leaderboard au 1er avril 2019.}). Le code source et les modèles pré-entraînés seront rendus publiquement disponibles sur https://github.com/namisan/mt-dnn.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp