HyperAIHyperAI
il y a 2 mois

Représentations distribuées des phrases et des documents

Quoc V. Le; Tomas Mikolov
Représentations distribuées des phrases et des documents
Résumé

De nombreux algorithmes d'apprentissage automatique nécessitent que l'entrée soit représentée sous forme de vecteur de caractéristiques de longueur fixe. En ce qui concerne les textes, l'une des représentations les plus courantes de ces caractéristiques est le sac de mots (bag-of-words). Malgré leur popularité, les caractéristiques du sac de mots présentent deux faiblesses majeures : elles perdent l'ordre des mots et ignorent également la sémantique des mots. Par exemple, « puissant », « fort » et « Paris » sont considérés comme équidistants. Dans cet article, nous proposons Paragraph Vector, un algorithme non supervisé qui apprend des représentations de caractéristiques de longueur fixe à partir de fragments textuels de longueur variable, tels que des phrases, des paragraphes et des documents. Notre algorithme représente chaque document par un vecteur dense formé pour prédire les mots contenus dans le document. Cette construction donne à notre algorithme le potentiel de surmonter les faiblesses des modèles du sac de mots. Les résultats empiriques montrent que les vecteurs paragraphes surpassent non seulement les modèles du sac de mots mais aussi d'autres techniques pour la représentation des textes. Enfin, nous obtenons de nouveaux résultats d'état de l'art sur plusieurs tâches de classification textuelle et d'analyse de sentiments.

Représentations distribuées des phrases et des documents | Articles de recherche récents | HyperAI