Sequentielle Ausrichtungsmethoden für Ensemble-Part-of-Speech-Tagging
Die Wortarten-Kennzeichnung (Part-of-speech tagging) ist eine grundlegende Aufgabe, die für zusätzliche natürliche Sprachverarbeitung die elementare Struktur und Inhaltinformation bereitstellt. Obwohl die Aufgabe der Wortarten-Kennzeichnung traditionell als sequenzielle Beschriftung formuliert wurde, haben bisher keine der vorgeschlagenen Ensemble-Ansätze während der Nachverarbeitung auf die Sequenzalignment-Optimierung fokussiert. In diesem Beitrag präsentieren wir eine gewichtete Ensemble-Technik, die auf einem Sequenzalignment-Ansatz basiert, um einen Wortarten-Tagger zu verbessern. Mittels dieser Technik führen wir einen einfachen, aber leistungsfähigen Nachverarbeiter ein, der einen Teilsequenz-Selektor darstellt, der auf einer Ähnlichkeitsmessung basiert, die mittels Sequenzalignment-Methoden berechnet wird. Diese Methoden beruhen auf einem bereits existierenden Ansatz zur DNA-Alignment, der nun auf natürliche Sprache übertragen wird. Experimente wurden mit einem Ensemble aus verschiedenen Sequenzalignment-Methoden durchgeführt, wobei drei unterschiedliche Teilsequenz-Einheiten verwendet wurden: die volle Sequenz, das Wort und der Zeichenbereich (character span). Die Experimente an englischen und koreanischen Datensätzen zeigen, dass unsere Ensemble-Technik basierend auf Sequenzalignment die grundlegende Hard-Voting-Methode übertrifft. Die meisten Ergebnisse des Ensemble-Alignments mit verschiedenen Teilsequenz-Einheiten erzielten eine Steigerung des F1-Scores gegenüber Hard Voting. Der F1-Score stieg dabei auf dem Testdatensatz bis zu 0,36 gegenüber der herkömmlichen Hard-Voting-Methode an.