Classification de sentiment à l’aide d’embeddings de documents entraînés avec la similarité cosinus

Dans la classification de sentiment au niveau du document, chaque document doit être représenté par un vecteur de longueur fixe. Les modèles d’encodage de documents (document embeddings) associent chaque document à un vecteur dense et à faible dimension dans un espace vectoriel continu. Ce papier propose d’entraîner les embeddings de documents en utilisant la similarité cosinus au lieu du produit scalaire. Des expériences menées sur le jeu de données IMDB montrent que l’exactitude est améliorée lorsqu’on utilise la similarité cosinus par rapport au produit scalaire. En combinant cette approche avec un sac de n-grammes pondéré par un classifieur naïf bayésien, une nouvelle meilleure précision état de l’art de 97,42 % est atteinte. Le code permettant de reproduire toutes les expériences est disponible à l’adresse suivante : https://github.com/tanthongtan/dv-cosine