HyperAIHyperAI

Command Palette

Search for a command to run...

Vector de plongements de mots localement agrégés (VLAWE) : Une nouvelle représentation au niveau du document

Radu Tudor Ionescu Andrei M. Butnaru

Résumé

Dans cet article, nous proposons une nouvelle représentation pour les documents textuels basée sur l'agrégation des vecteurs d'embeddings de mots en embeddings de documents. Notre approche s'inspire du Vector of Locally-Aggregated Descriptors (VLAD) utilisé pour la représentation d'images, et fonctionne comme suit. Tout d'abord, les embeddings de mots collectés à partir d'un ensemble de documents sont regroupés par k-means afin d'apprendre un codebook d'embeddings de mots sémantiquement liés. Chaque embedding de mot est ensuite associé à son centroïde de cluster le plus proche (mot-code). La représentation Vector of Locally-Aggregated Word Embeddings (VLAWE) d'un document est calculée en accumulant les différences entre chaque vecteur de mot-code et chaque vecteur de mot (du document) associé au respectif mot-code. Nous intégrons la représentation VLAWE, qui est apprise de manière non supervisée, dans un classifieur et montrons qu'elle est utile pour une variété de tâches de classification textuelle. Nous comparons notre approche à une large gamme de méthodes récentes et avancées, démontrant ainsi l'efficacité de notre méthode. De plus, nous obtenons une amélioration considérable sur l'ensemble de données des critiques de films, avec une précision de 93,3 %, ce qui représente un gain absolu de 10 % par rapport à l'approche state-of-the-art. Notre code est disponible à l'adresse suivante : https://github.com/raduionescu/vlawe-boswe/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp