Réseaux Neuronaux Profonds Multi-Tâches pour la Compréhension du Langage Naturel

Dans cet article, nous présentons un Réseau Neuronal Profond Multi-Tâches (MT-DNN) pour l'apprentissage de représentations à travers plusieurs tâches de compréhension du langage naturel (NLU). Le MT-DNN non seulement utilise de grandes quantités de données inter-tâches, mais bénéficie également d'un effet de régularisation qui conduit à des représentations plus générales afin de s'adapter à de nouvelles tâches et domaines. Le MT-DNN étend le modèle proposé par Liu et al. (2015) en intégrant un modèle linguistique pré-entraîné bidirectionnel basé sur les transformateurs, connu sous le nom de BERT (Devlin et al., 2018). Le MT-DNN obtient de nouveaux résultats d'état de l'art sur dix tâches NLU, y compris SNLI, SciTail et huit des neuf tâches GLUE, portant la référence GLUE à 82,7 % (amélioration absolue de 2,2 %). Nous démontrons également, en utilisant les jeux de données SNLI et SciTail, que les représentations apprises par le MT-DNN permettent une adaptation de domaine avec considérablement moins d'étiquettes spécifiques au domaine que les représentations pré-entraînées BERT. Le code source et les modèles pré-entraînés sont librement accessibles sur https://github.com/namisan/mt-dnn.