Sparsity macht Sinn: Wortbedeutungsdisambiguierung mithilfe sparser kontextualisierter Wortrepräsentationen

In diesem Artikel zeigen wir, dass es mithilfe spärlicher Wortrepräsentationen möglich ist, die Ergebnisse komplexerer, auf spezifische Aufgaben zugeschnittener Modelle bei der feinkörnigen, all-words-Wortsinndisambiguierung zu überbieten. Unser vorgeschlagenes Verfahren beruht auf einer überbestimmten Menge semantischer Basisvektoren, die es uns ermöglicht, spärliche, kontextualisierte Wortrepräsentationen zu erzeugen. Wir führen eine auf der Informationstheorie basierende Synset-Repräsentation ein, die auf der Ko-Occurrenz von Wortbedeutungen und den von Null verschiedenen Koordinaten von Wortformen beruht. Mit dieser Methode erreichen wir eine aggregierte F-Score von 78,8 über eine Kombination von fünf Standard-Benchmark-Datensätzen für die Wortsinndisambiguierung. Außerdem zeigen wir die allgemeine Anwendbarkeit unseres vorgeschlagenen Frameworks, indem wir es an vier verschiedenen Treebanks für die Part-of-Speech-Kennzeichnung evaluieren. Unsere Ergebnisse deuten auf eine signifikante Verbesserung im Vergleich zur Anwendung dichter Wortrepräsentationen hin.