HyperAIHyperAI
il y a 2 mois

La Tâche Commune SIGMORPHON 2022 sur la Segmentation des Morphèmes

Khuyagbaatar Batsuren; Gábor Bella; Aryaman Arora; Viktor Martinović; Kyle Gorman; Zdeněk Žabokrtský; Amarsanaa Ganbold; Šárka Dohnalová; Magda Ševčíková; Kateřina Pelegrinová; Fausto Giunchiglia; Ryan Cotterell; Ekaterina Vylomova
La Tâche Commune SIGMORPHON 2022 sur la Segmentation des Morphèmes
Résumé

La tâche commune SIGMORPHON 2022 sur la segmentation des morphèmes a mis au défi les systèmes de décomposer un mot en une séquence de morphèmes et a couvert la plupart des types de morphologie : composés, dérivés et flexions. La sous-tâche 1, la segmentation des morphèmes au niveau du mot, a traité 5 millions de mots dans 9 langues (tchèque, anglais, espagnol, hongrois, français, italien, russe, latin, mongol) et a reçu 13 soumissions de systèmes provenant de 7 équipes. Le meilleur système a obtenu une moyenne de 97,29 % en termes de score F1 sur l'ensemble des langues, avec des résultats variant entre l'anglais (93,84 %) et le latin (99,38 %). La sous-tâche 2, la segmentation des morphèmes au niveau de la phrase, a traité 18 735 phrases dans 3 langues (tchèque, anglais, mongol), a reçu 10 soumissions de systèmes provenant de 3 équipes et les meilleurs systèmes ont surpassé toutes les trois méthodes d'état de l'art pour la tokenisation submotale (BPE, ULM, Morfessor2) avec une amélioration absolue de 30,71 %. Pour faciliter l'analyse des erreurs et soutenir toute étude future, nous avons rendu disponibles toutes les prédictions des systèmes, le script d'évaluation et tous les jeux de données standards d'or.

La Tâche Commune SIGMORPHON 2022 sur la Segmentation des Morphèmes | Articles de recherche récents | HyperAI