HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de la classification de documents grâce aux embeddings à sens multiple

Vivek Gupta Ankit Saw Pegah Nokhiz Harshit Gupta Partha Talukdar

Résumé

La représentation efficace des documents textuels constitue une composante fondamentale dans de nombreuses tâches de traitement du langage naturel (NLP). Les recherches sur la catégorisation de textes longs ont montré que le simple moyennage pondéré des vecteurs de mots pour représenter des phrases dépasse souvent les modèles neuronaux plus sophistiqués. Le modèle récemment proposé, le Sparse Composite Document Vector (SCDV) (Mekala et al., 2017), étend cette approche des phrases aux documents en utilisant un regroupement doux (soft clustering) appliqué aux vecteurs de mots. Toutefois, SCDV ignore la nature polysémique des mots et souffre également du fléau de la dimensionnalité élevée. Dans ce travail, nous corrigeons ces limitations en proposant SCDV-MS. Ce dernier intègre des embeddings de mots à plusieurs sens (multi-sense) et apprend une variété de plus faible dimension. À travers des expériences approfondies sur plusieurs jeux de données réels, nous démontrons que les embeddings SCDV-MS surpassent les embeddings de l’état de l’art précédents sur des tâches de catégorisation textuelle multi-classes et multi-étiquettes. En outre, les embeddings SCDV-MS s’avèrent plus efficaces que ceux de SCDV en termes de complexité temporelle et spatiale pour les tâches de classification textuelle.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration de la classification de documents grâce aux embeddings à sens multiple | Articles | HyperAI