ShotgunWSD: Ein unüberwachter Algorithmus für die globale Wortsinnentwicklung, inspiriert durch die DNS-Sequenzierung

In dieser Arbeit stellen wir einen neuen unüberwachten Algorithmus für die Wortsinndiskambiguierung (WSD) auf Dokumentebene vor. Unser Algorithmus orientiert sich an einem weit verbreiteten Ansatz aus dem Bereich der Genetik für die Vollsequenzierung ganzer Genome, bekannt als das Shotgun-Sequencing-Verfahren. Der vorgeschlagene WSD-Algorithmus basiert auf drei Hauptschritten. Zunächst wird ein Brute-Force-WSD-Algorithmus auf kurzen Kontextfenstern (bis zu 10 Wörtern), die aus dem Dokument ausgewählt werden, angewendet, um eine kurze Liste wahrscheinlicher Sinuskonfigurationen für jedes Fenster zu generieren. Im zweiten Schritt werden diese lokalen Sinuskonfigurationen durch Suffix- und Präfixabgleich zu längeren zusammengesetzten Konfigurationen zusammengefügt. Die resultierenden Konfigurationen werden nach ihrer Länge geordnet, und der Sinn jedes Wortes wird auf Basis eines Wahlschemas gewählt, das nur die oberen k Konfigurationen berücksichtigt, in denen das Wort erscheint. Wir vergleichen unseren Algorithmus mit anderen aktuellen unüberwachten WSD-Algorithmen und zeigen eine bessere Leistung, manchmal sogar bei einem sehr großen Vorsprung. Darüber hinaus demonstrieren wir, dass unser Algorithmus in einem Datensatz eine bessere Leistung als die Baseline des häufigsten Sinns (Most Common Sense, MCS) erzielen kann. Des Weiteren hat unser Algorithmus eine sehr geringe Anzahl von Parametern, ist robust gegenüber Parameteranpassungen und gibt im Gegensatz zu anderen biologisch inspirierten Methoden eine deterministische Lösung (er beinhaltet keine zufälligen Entscheidungen).