Command Palette
Search for a command to run...
Accélération de la Distance de Word Mover et de ses variantes grâce aux propriétés des distances entre embeddings
Accélération de la Distance de Word Mover et de ses variantes grâce aux propriétés des distances entre embeddings
Matheus Werner Eduardo Laber
Résumé
La distance Word Mover’s (WMD), proposée par Kusner et al., est une mesure de distance entre documents qui exploite les relations sémantiques entre les mots capturées par leurs représentations vectorielles (embeddings). Cette distance s’est avérée particulièrement efficace, atteignant des taux d’erreur de classification parmi les meilleurs à ce jour, mais reste toutefois peu pratique pour de grandes collections ou documents en raison de sa complexité computationnelle élevée. Afin de surmonter ce problème, plusieurs variantes de la WMD ont été proposées. Parmi celles-ci, la distance Word Mover relâchée (RWMD) s’est imposée comme l’une des plus réussies, grâce à sa simplicité, son efficacité, ainsi qu’à ses implémentations rapides.En s’appuyant sur des hypothèses fondées sur des propriétés empiriques des distances entre embeddings, nous proposons une approche visant à accélérer à la fois la WMD et la RWMD. Des expériences menées sur 10 jeux de données montrent que notre méthode permet une accélération significative dans les tâches de classification de documents, tout en maintenant les mêmes taux d’erreur.