HyperAIHyperAI

Command Palette

Search for a command to run...

Morfessor-enriched Features und multilinguale Training für kanonische morphologische Segmentierung

Mikko Kurimo Mathias Creutz Sami Virpioja Stig-Arne Grönroos Aku Rouhe

Zusammenfassung

In unserer Einreichung zum SIGMORPHON 2022 Shared Task zur Morphemsegmentierung untersuchen wir, ob eine unsupervisierte morphologische Segmentierungsmethode, Morfessor, auch in einem supervisierten Kontext von Nutzen ist. Frühere Studien haben die Wirksamkeit dieses Ansatzes in semisupervisierten Szenarien mit geringen Mengen an gelabelten Daten gezeigt. Die aktuellen Aufgaben unterscheiden sich hinsichtlich der Datenmenge: Während die Menge an wortbasiert annotierten Trainingsdaten erheblich größer ist, bleibt die Menge an satzbasiert annotierten Trainingsdaten gering. Unser Ansatz besteht darin, die Eingabedaten für ein neuronales Sequenz-zu-Sequenz-Modell vorab mit der unsupervisierten Methode zu segmentieren. Da die unsupervisierte Methode mit Roh-Textdaten trainiert werden kann, nutzen wir Wikipedia, um die Menge an Trainingsdaten zu erhöhen. Zudem trainieren wir mehrsprachige Modelle für die satzbasierte Aufgabe. Die Ergebnisse für die durch Morfessor angereicherten Merkmale sind gemischt: Sie zeigen Vorteile für alle drei satzbasierten Aufgaben, jedoch nur für einige der wortbasierten Aufgaben. Die mehrsprachige Trainingsstrategie führt zu erheblichen Verbesserungen gegenüber den monolingualen satzbasierten Modellen, hebt jedoch den positiven Effekt der angereicherten Merkmale auf.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp