Morfessor-enriched Features und multilinguale Training für kanonische morphologische Segmentierung

In unserer Einreichung zum SIGMORPHON 2022 Shared Task zur Morphemsegmentierung untersuchen wir, ob eine unsupervisierte morphologische Segmentierungsmethode, Morfessor, auch in einem supervisierten Kontext von Nutzen ist. Frühere Studien haben die Wirksamkeit dieses Ansatzes in semisupervisierten Szenarien mit geringen Mengen an gelabelten Daten gezeigt. Die aktuellen Aufgaben unterscheiden sich hinsichtlich der Datenmenge: Während die Menge an wortbasiert annotierten Trainingsdaten erheblich größer ist, bleibt die Menge an satzbasiert annotierten Trainingsdaten gering. Unser Ansatz besteht darin, die Eingabedaten für ein neuronales Sequenz-zu-Sequenz-Modell vorab mit der unsupervisierten Methode zu segmentieren. Da die unsupervisierte Methode mit Roh-Textdaten trainiert werden kann, nutzen wir Wikipedia, um die Menge an Trainingsdaten zu erhöhen. Zudem trainieren wir mehrsprachige Modelle für die satzbasierte Aufgabe. Die Ergebnisse für die durch Morfessor angereicherten Merkmale sind gemischt: Sie zeigen Vorteile für alle drei satzbasierten Aufgaben, jedoch nur für einige der wortbasierten Aufgaben. Die mehrsprachige Trainingsstrategie führt zu erheblichen Verbesserungen gegenüber den monolingualen satzbasierten Modellen, hebt jedoch den positiven Effekt der angereicherten Merkmale auf.