Wortbedeutungsauflösung: Ein einheitliches Evaluationsframework und empirischer Vergleich
{Jose Camacho-Collados ro Roberto Navigli Aless Raganato}

Abstract
Wort-Sinn-Entscheidung (Word Sense Disambiguation, WSD) ist eine etablierte Aufgabe im Bereich der natürlichen Sprachverarbeitung und liegt im Kern des menschlichen Sprachverständnisses. Die Bewertung automatischer Systeme hat jedoch lange Zeit Probleme bereitet, vor allem aufgrund des Fehlens eines zuverlässigen Evaluierungsrahmens. In diesem Artikel entwickeln wir einen einheitlichen Evaluierungsrahmen und analysieren die Leistung verschiedener WSD-Systeme unter fairen Bedingungen. Die Ergebnisse zeigen, dass überwachte Systeme klar über wissenbasierte Modelle hinausweisen. Unter den überwachten Systemen bleibt ein lineares Klassifikator, der auf herkömmlichen lokalen Merkmalen trainiert wurde, weiterhin eine schwierige Referenz, die zu schlagen ist. Dennoch erzielen neuere Ansätze, die neuronale Netze auf ungelabelten Korpora einsetzen, vielversprechende Ergebnisse und übertrumpfen diese anspruchsvolle Referenz in den meisten Testdatensätzen.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| word-sense-disambiguation-on-knowledge-based | WN 1st sense baseline | All: 65.2 SemEval 2007: 55.2 SemEval 2013: 63.0 SemEval 2015: 67.8 Senseval 2: 66.8 Senseval 3: 66.2 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.