Apprentissage de représentations de phrases distribuées à usage général par apprentissage multi-tâches à grande échelle

Le succès récent dans le traitement automatique des langues naturelles (TALN) a été largement attribué aux représentations vectorielles distribuées de mots formées à partir de grands volumes de texte de manière non supervisée. Ces représentations sont généralement utilisées comme caractéristiques polyvalentes pour les mots dans divers problèmes de TALN. Cependant, étendre ce succès à l'apprentissage de représentations de séquences de mots, telles que des phrases, reste un problème ouvert. Des travaux récents ont exploré des techniques d'apprentissage non supervisé ainsi que supervisé avec différents objectifs d'entraînement pour apprendre des représentations polyvalentes et de longueur fixe des phrases. Dans cette étude, nous présentons un cadre simple et efficace d'apprentissage multitâche pour les représentations de phrases qui combine les biais inductifs d'objectifs d'entraînement variés au sein d'un seul modèle. Nous entraînons ce modèle sur plusieurs sources de données avec plusieurs objectifs d'entraînement sur plus de 100 millions de phrases. De nombreuses expériences montrent que le partage d'un unique encodeur récurrent de phrases entre des tâches faiblement liées conduit à des améliorations constantes par rapport aux méthodes précédentes. Nous présentons des améliorations substantielles dans le contexte du transfert d'apprentissage et des configurations à ressources limitées en utilisant nos représentations polyvalentes apprises.