Représentation vectorielle efficace des documents par corruption

Nous présentons un cadre efficace d'apprentissage de la représentation des documents, appelé Document Vector through Corruption (Doc2VecC). Doc2VecC représente chaque document comme une moyenne simple des plongements de mots (word embeddings). Cette méthode garantit que la représentation générée capture les significations sémantiques du document au cours de l'apprentissage. Un modèle de corruption est intégré, introduisant une régularisation dépendante des données qui favorise les mots informatifs ou rares tout en forçant les plongements des mots courants et non discriminants à être proches de zéro. Doc2VecC produit des plongements de mots nettement meilleurs que Word2Vec. Nous comparons Doc2VecC à plusieurs algorithmes d'apprentissage de la représentation des documents parmi les plus avancés actuellement. L'architecture simple du modèle introduite par Doc2VecC égale ou surpasse ces derniers dans la génération de représentations de haute qualité pour l'analyse de sentiment, la classification des documents ainsi que les tâches de similarité sémantique. La simplicité du modèle permet un entraînement sur des milliards de mots par heure sur une seule machine. En même temps, le modèle est très efficace pour générer des représentations de documents inconnus lors des tests.