Wissensbasierte Wortsinndiskambiguierung mit Themenmodellen

Die Wörterbedeutungsauflösung (Word Sense Disambiguation, WSD) ist ein offenes Problem im Bereich der Natürlichen Sprachverarbeitung (Natural Language Processing, NLP), das insbesondere in der unüberwachten Einstellung besonders herausfordernd und nützlich ist. In dieser Einstellung müssen alle Wörter in einem gegebenen Text ohne Verwendung von etikettierten Daten aufgelöst werden. Üblicherweise verwenden WSD-Systeme den Satz oder einen kleinen Kontext um das Zielwort herum als Grundlage für die Auflösung, da ihre Rechenkomplexität exponentiell mit der Größe des Kontexts ansteigt. In diesem Artikel nutzen wir die Formalisierung des Themenmodells (topic model), um ein WSD-System zu entwickeln, dessen Rechenkomplexität linear mit der Anzahl der Wörter im Kontext skaliert. Dadurch ist unser System in der Lage, das gesamte Dokument als Kontext für die Auflösung eines Wortes zu verwenden. Die vorgeschlagene Methode ist eine Variante des Latent Dirichlet Allocation (LDA), bei der die Themenverteilungen in einem Dokument durch Synset-Verhältnisse ersetzt werden. Wir nutzen zudem die Informationen aus dem WordNet, indem wir einer nicht-gleichmäßigen A-priori-Verteilung für die Synset-Verteilungen über die Wörter und einer logistisch-normalen A-priori-Verteilung für die Dokumentverteilungen über die Synsets zuweisen. Wir evaluieren die vorgeschlagene Methode anhand der Senseval-2, Senseval-3, SemEval-2007, SemEval-2013 und SemEval-2015 Englischen All-Words-WSD-Datensätze und zeigen, dass sie erheblich besser als das aktuell beste unüberwachte wissensbasierte WSD-System abschneidet.