il y a 11 jours

Classification de texte avec régularisation par intégration de mots et mesure de similarité souple

Vít Novotný, Eniafe Festus Ayetiran, Michal Štefánik, Petr Sojka

Résumé

Depuis l’œuvre fondateure de Mikolov et al., les embeddings de mots sont devenus les représentations préférées pour de nombreuses tâches de traitement du langage naturel. Des mesures de similarité de documents extraites à partir d’embeddings de mots, telles que la mesure cosinus souple (SCM) et la Distance du Voyageur de Mot (WMD), ont été rapportées comme atteignant des performances de pointe sur la similarité sémantique de texte et la classification de texte.Malgré les performances remarquables de la WMD sur la classification de texte et la similarité sémantique de texte, sa complexité temporelle moyenne super-cubique reste impraticable. La SCM présente une complexité temporelle quadratique dans le pire des cas, mais sa performance en classification de texte n’a jamais été comparée directement à celle de la WMD. Récemment, deux techniques de régularisation des embeddings de mots ont été montrées efficaces pour réduire les coûts de stockage et de mémoire, accélérer le processus d’entraînement, améliorer la vitesse de traitement des documents, ainsi que les performances sur des tâches telles que les analogies entre mots, la similarité entre mots et la similarité sémantique de texte. Toutefois, l’effet de ces techniques sur la classification de texte n’avait pas encore été étudié.Dans notre travail, nous examinons les effets individuels et conjoints des deux techniques de régularisation des embeddings de mots sur la vitesse de traitement des documents ainsi que sur les performances des méthodes SCM et WMD en classification de texte. Pour l’évaluation, nous utilisons le classifieur $k$NN et six jeux de données standards : BBCSPORT, TWITTER, OHSUMED, REUTERS-21578, AMAZON et 20NEWS.Nous démontrons une réduction moyenne de 39 % de l’erreur de test $k$NN obtenue avec des embeddings régularisés par rapport aux embeddings non régularisés. Nous décrivons une procédure pratique pour obtenir de tels embeddings régularisés via une factorisation de Cholesky. Nous montrons également que la SCM utilisant des embeddings régularisés surpasse significativement la WMD en classification de texte, tout en étant plus de 10 000 fois plus rapide.