Amélioration de la classification de documents grâce aux embeddings à sens multiple

La représentation efficace des documents textuels constitue une composante fondamentale dans de nombreuses tâches de traitement du langage naturel (NLP). Les recherches sur la catégorisation de textes longs ont montré que le simple moyennage pondéré des vecteurs de mots pour représenter des phrases dépasse souvent les modèles neuronaux plus sophistiqués. Le modèle récemment proposé, le Sparse Composite Document Vector (SCDV) (Mekala et al., 2017), étend cette approche des phrases aux documents en utilisant un regroupement doux (soft clustering) appliqué aux vecteurs de mots. Toutefois, SCDV ignore la nature polysémique des mots et souffre également du fléau de la dimensionnalité élevée. Dans ce travail, nous corrigeons ces limitations en proposant SCDV-MS. Ce dernier intègre des embeddings de mots à plusieurs sens (multi-sense) et apprend une variété de plus faible dimension. À travers des expériences approfondies sur plusieurs jeux de données réels, nous démontrons que les embeddings SCDV-MS surpassent les embeddings de l’état de l’art précédents sur des tâches de catégorisation textuelle multi-classes et multi-étiquettes. En outre, les embeddings SCDV-MS s’avèrent plus efficaces que ceux de SCDV en termes de complexité temporelle et spatiale pour les tâches de classification textuelle.