vor 2 Monaten

MoNoise: Modellierung von Rauschen mittels eines modularen Normalisierungssystems

Rob van der Goot; Gertjan van Noord

Abstract

Wir schlagen MoNoise vor: ein Normalisierungsmodell, das sich auf Generalisierbarkeit und Effizienz konzentriert. Es soll leicht wiederverwendbar und anpassbar sein. Die Normalisierung ist die Aufgabe, Texte aus einem nichtkanonischen Bereich in einen kanonischeren Bereich zu übersetzen; in unserem Fall von sozialen Medien-Daten ins Standarddeutsch. Unser vorgeschlagenes Modell basiert auf einer modularen Kandidatenerzeugung, bei der jedes Modul für eine andere Art von Normalisierungsaktion verantwortlich ist. Die wichtigsten Erzeugungsmodule sind ein Rechtschreibkorrektursystem und ein Modul für Wortvektoren (word embeddings). Abhängig von der Definition der Normalisierungsaufgabe kann eine statische Suchliste entscheidend für die Leistung sein. Wir trainieren einen Random-Forest-Klassifikator, um die Kandidaten zu bewerten, der sich gut auf alle verschiedenen Arten von Normalisierungsaktionen verallgemeinern lässt. Die meisten Merkmale für die Bewertung stammen aus den Erzeugungsmodulen; neben diesen Merkmalen erweisen sich N-Gram-Merkmale als wichtige Informationsquelle. Wir zeigen, dass MoNoise verschiedene Normalisierungsbenchmarks für Englisch und Niederländisch übertrifft, bei denen die Aufgabe der Normalisierung jeweils unterschiedlich definiert wird.