Apprentissage de représentations distribuées de phrases à partir de données non étiquetées

Les méthodes non supervisées pour l'apprentissage de représentations distribuées de mots sont omniprésentes dans les recherches en traitement automatique du langage (TAL) actuelles, mais on connaît beaucoup moins bien les meilleures façons d'apprendre des représentations distribuées de phrases ou de propositions à partir de données non étiquetées. Cet article présente une comparaison systématique des modèles qui apprennent de telles représentations. Nous constatons que l'approche optimale dépend de manière cruciale de l'application prévue. Les modèles plus profonds et complexes sont préférables pour des représentations destinées à être utilisées dans des systèmes supervisés, tandis que les modèles linéaires logarithmiques simples fonctionnent le mieux pour construire des espaces de représentation qui peuvent être décryptés à l'aide de métriques spatiales simples. Nous proposons également deux nouveaux objectifs d'apprentissage non supervisé conçus pour optimiser le compromis entre le temps d'entraînement, la portabilité du domaine et les performances.