La Tâche Commune SIGMORPHON 2022 sur la Segmentation des Morphèmes

La tâche commune SIGMORPHON 2022 sur la segmentation des morphèmes a mis au défi les systèmes de décomposer un mot en une séquence de morphèmes et a couvert la plupart des types de morphologie : composés, dérivés et flexions. La sous-tâche 1, la segmentation des morphèmes au niveau du mot, a traité 5 millions de mots dans 9 langues (tchèque, anglais, espagnol, hongrois, français, italien, russe, latin, mongol) et a reçu 13 soumissions de systèmes provenant de 7 équipes. Le meilleur système a obtenu une moyenne de 97,29 % en termes de score F1 sur l'ensemble des langues, avec des résultats variant entre l'anglais (93,84 %) et le latin (99,38 %). La sous-tâche 2, la segmentation des morphèmes au niveau de la phrase, a traité 18 735 phrases dans 3 langues (tchèque, anglais, mongol), a reçu 10 soumissions de systèmes provenant de 3 équipes et les meilleurs systèmes ont surpassé toutes les trois méthodes d'état de l'art pour la tokenisation submotale (BPE, ULM, Morfessor2) avec une amélioration absolue de 30,71 %. Pour faciliter l'analyse des erreurs et soutenir toute étude future, nous avons rendu disponibles toutes les prédictions des systèmes, le script d'évaluation et tous les jeux de données standards d'or.