Sinn-Einbettungslernen für die Wortsinninduktion

Konventionelle Methoden zur Wortsinserkennung (WSI) stellen normalerweise jede Instanz mit diskreten linguistischen Merkmalen oder Ko-Verwendungsmerkmalen dar und trainieren ein Modell für jedes mehrdeutige Wort einzeln. In dieser Arbeit schlagen wir vor, Sinsembeddings für die WSI-Aufgabe zu lernen. Im Trainingsstadium induziert unsere Methode mehrere Sinsschwerpunkte (Embeddings) für jedes mehrdeutige Wort. Im Teststadium repräsentiert unsere Methode jede Instanz als einen kontextuellen Vektor und ermittelt dessen Sinn, indem sie den nächsten Sinsschwerpunkt im Embeddingraum findet. Die Vorteile unserer Methode sind: (1) verteilte Sinse-Vektoren werden als Wissensrepräsentationen verwendet, die diskriminativ trainiert werden und in der Regel eine bessere Leistung bieten als traditionelle zählbasierte distributionale Modelle, und (2) ein allgemeines Modell für das gesamte Wörterbuch wird gemeinsam trainiert, um Sinsschwerpunkte unter einem Multitask-Lernrahmen zu induzieren. Bei der Auswertung am SemEval-2010 WSI-Datensatz übertrifft unsere Methode alle Teilnehmer und die meisten der jüngsten Stand-of-the-Art-Methoden. Wir verifizieren diese beiden Vorteile durch Vergleiche mit sorgfältig konzipierten Baseline-Methoden.