Command Palette
Search for a command to run...
Beschleunigung der Word Mover’s Distance und ihrer Varianten durch Eigenschaften von Abständen zwischen Embeddings
Beschleunigung der Word Mover’s Distance und ihrer Varianten durch Eigenschaften von Abständen zwischen Embeddings
Matheus Werner Eduardo Laber
Zusammenfassung
Die von Kusner et al. vorgeschlagene Word Mover’s Distance (WMD) ist eine Distanz zwischen Dokumenten, die semantische Beziehungen zwischen Wörtern nutzt, die durch ihre Embeddings erfasst werden. Diese Distanz erwies sich als äußerst effektiv und erzielte state-of-the-art-Fehlerquoten bei Klassifizierungsaufgaben, ist jedoch aufgrund ihrer hohen Rechenkomplexität für große Dokumentkollektionen oder längere Dokumente praktisch unbrauchbar. Um dieses Problem zu umgehen, wurden verschiedene Varianten der WMD vorgeschlagen. Unter ihnen ist die relaxed Word Mover’s Distance (RWMD) eine der erfolgreichsten, da sie sich durch Einfachheit, Effektivität sowie schnelle Implementierungen auszeichnet.Basierend auf Annahmen, die durch empirische Eigenschaften der Abstände zwischen Embeddings gestützt werden, schlagen wir einen Ansatz zur Beschleunigung sowohl der WMD als auch der RWMD vor. Experimente an zehn Datensätzen zeigen, dass unser Ansatz eine erhebliche Beschleunigung bei Dokumentklassifizierungsaufgaben ermöglicht, ohne die Fehlerquoten zu beeinträchtigen.