HyperAIHyperAI
vor 2 Monaten

Die SIGMORPHON 2022 Gemeinsame Aufgabe zur Morphemsegmentierung

Khuyagbaatar Batsuren; Gábor Bella; Aryaman Arora; Viktor Martinović; Kyle Gorman; Zdeněk Žabokrtský; Amarsanaa Ganbold; Šárka Dohnalová; Magda Ševčíková; Kateřina Pelegrinová; Fausto Giunchiglia; Ryan Cotterell; Ekaterina Vylomova
Die SIGMORPHON 2022 Gemeinsame Aufgabe zur Morphemsegmentierung
Abstract

Die SIGMORPHON 2022 gemeinsame Aufgabe zur Morphemsegmentierung forderte Systeme heraus, ein Wort in eine Folge von Morphemen zu zerlegen, und umfasste die meisten Arten der Morphologie: Komposita, Derivationen und Flexionen. Teilaufgabe 1, die Segmentierung von Morphemen auf Wortebene, umfasste 5 Millionen Wörter in 9 Sprachen (Tschechisch, Englisch, Spanisch, Ungarisch, Französisch, Italienisch, Russisch, Lateinisch und Mongolisch) und erhielt 13 Systemeinreichungen von 7 Teams. Das beste System erreichte durchschnittlich einen F1-Score von 97,29 % über alle Sprachen hinweg, wobei die Leistung von Englisch (93,84 %) bis Lateinisch (99,38 %) reichte. Teilaufgabe 2, die Segmentierung von Morphemen auf Satzebene, umfasste 18.735 Sätze in 3 Sprachen (Tschechisch, Englisch und Mongolisch), erhielt 10 Systemeinreichungen von 3 Teams und übertreffen die besten Systeme alle drei state-of-the-art-Subwort-Tokenisierungsverfahren (BPE, ULM, Morfessor2) um 30,71 % absolut. Um Fehleranalysen zu erleichtern und zukünftige Studien aller Art zu unterstützen, veröffentlichten wir alle Systemvorhersagen, das Evaluierungsskript sowie alle Gold-Standard-Datensätze.