HyperAIHyperAI
il y a 2 mois

Vector de plongements de mots localement agrégés (VLAWE) : Une nouvelle représentation au niveau du document

Radu Tudor Ionescu; Andrei M. Butnaru
Vector de plongements de mots localement agrégés (VLAWE) : Une nouvelle représentation au niveau du document
Résumé

Dans cet article, nous proposons une nouvelle représentation pour les documents textuels basée sur l'agrégation des vecteurs d'embeddings de mots en embeddings de documents. Notre approche s'inspire du Vector of Locally-Aggregated Descriptors (VLAD) utilisé pour la représentation d'images, et fonctionne comme suit. Tout d'abord, les embeddings de mots collectés à partir d'un ensemble de documents sont regroupés par k-means afin d'apprendre un codebook d'embeddings de mots sémantiquement liés. Chaque embedding de mot est ensuite associé à son centroïde de cluster le plus proche (mot-code). La représentation Vector of Locally-Aggregated Word Embeddings (VLAWE) d'un document est calculée en accumulant les différences entre chaque vecteur de mot-code et chaque vecteur de mot (du document) associé au respectif mot-code. Nous intégrons la représentation VLAWE, qui est apprise de manière non supervisée, dans un classifieur et montrons qu'elle est utile pour une variété de tâches de classification textuelle. Nous comparons notre approche à une large gamme de méthodes récentes et avancées, démontrant ainsi l'efficacité de notre méthode. De plus, nous obtenons une amélioration considérable sur l'ensemble de données des critiques de films, avec une précision de 93,3 %, ce qui représente un gain absolu de 10 % par rapport à l'approche state-of-the-art. Notre code est disponible à l'adresse suivante : https://github.com/raduionescu/vlawe-boswe/.

Vector de plongements de mots localement agrégés (VLAWE) : Une nouvelle représentation au niveau du document | Articles de recherche récents | HyperAI