HyperAIHyperAI
vor 2 Monaten

All-but-the-Top: Einfache und effektive Postverarbeitung für Wortrepräsentationen

Jiaqi Mu; Suma Bhat; Pramod Viswanath
All-but-the-Top: Einfache und effektive Postverarbeitung für Wortrepräsentationen
Abstract

Reelle Wortrepräsentationen haben die Anwendungen der Natural Language Processing (NLP) revolutioniert; bekannte Beispiele sind word2vec und GloVe, die für ihre Fähigkeit zur Erfassung linguistischer Regularitäten anerkannt sind. In dieser Arbeit zeigen wir eine {\em sehr einfache}, dennoch kontraintuitiv erscheinende, Postverarbeitungstechnik – das Entfernen des gemeinsamen Mittelvektors und einiger dominierender Richtungen von den Wortvektoren –, die vorgefertigte Repräsentationen {\em noch stärker} macht. Die Postverarbeitung wurde anhand einer Vielzahl lexikalischer intrinsischer Aufgaben (Wortsimilarität, Konzeptkategorisierung, Wortanalogie) und satzbasierter Aufgaben (semantische Textähnlichkeit und Textklassifizierung) auf mehreren Datensätzen und mit verschiedenen Repräsentationsmethoden sowie Hyperparameterauswahlen in mehreren Sprachen empirisch überprüft; in jedem Fall waren die verarbeiteten Repräsentationen konsistent besser als die ursprünglichen.

All-but-the-Top: Einfache und effektive Postverarbeitung für Wortrepräsentationen | Neueste Forschungsarbeiten | HyperAI