Die SIGMORPHON 2022 Gemeinsame Aufgabe zur Morphemsegmentierung

Die SIGMORPHON 2022 gemeinsame Aufgabe zur Morphemsegmentierung forderte Systeme heraus, ein Wort in eine Folge von Morphemen zu zerlegen, und umfasste die meisten Arten der Morphologie: Komposita, Derivationen und Flexionen. Teilaufgabe 1, die Segmentierung von Morphemen auf Wortebene, umfasste 5 Millionen Wörter in 9 Sprachen (Tschechisch, Englisch, Spanisch, Ungarisch, Französisch, Italienisch, Russisch, Lateinisch und Mongolisch) und erhielt 13 Systemeinreichungen von 7 Teams. Das beste System erreichte durchschnittlich einen F1-Score von 97,29 % über alle Sprachen hinweg, wobei die Leistung von Englisch (93,84 %) bis Lateinisch (99,38 %) reichte. Teilaufgabe 2, die Segmentierung von Morphemen auf Satzebene, umfasste 18.735 Sätze in 3 Sprachen (Tschechisch, Englisch und Mongolisch), erhielt 10 Systemeinreichungen von 3 Teams und übertreffen die besten Systeme alle drei state-of-the-art-Subwort-Tokenisierungsverfahren (BPE, ULM, Morfessor2) um 30,71 % absolut. Um Fehleranalysen zu erleichtern und zukünftige Studien aller Art zu unterstützen, veröffentlichten wir alle Systemvorhersagen, das Evaluierungsskript sowie alle Gold-Standard-Datensätze.