2달 전
SIGMORPHON 2022 공유 작업: 형태소 분할
Khuyagbaatar Batsuren; Gábor Bella; Aryaman Arora; Viktor Martinović; Kyle Gorman; Zdeněk Žabokrtský; Amarsanaa Ganbold; Šárka Dohnalová; Magda Ševčíková; Kateřina Pelegrinová; Fausto Giunchiglia; Ryan Cotterell; Ekaterina Vylomova

초록
SIGMORPHON 2022의 형태소 분할 공유 작업은 단어를 형태소 시퀀스로 분해하는 시스템을 도전시켰으며, 대부분의 형태론 유형(합성어, 파생어, 굴절어)을 포함했습니다. 서브태스크 1인 단어 수준의 형태소 분할은 체코어, 영어, 스페인어, 헝가리어, 프랑스어, 이탈리아어, 러시아어, 라틴어, 몽골어 등 9개 언어에 걸쳐 500만 개의 단어를 다루었으며, 7개 팀에서 13개의 시스템 제출이 이루어졌습니다. 최고 성능을 보인 시스템은 모든 언어에서 평균 F1 점수가 97.29%였으며, 영어(93.84%)부터 라틴어(99.38%)까지 다양했습니다. 서브태스크 2인 문장 수준의 형태소 분할은 체코어, 영어, 몽골어 등 3개 언어에 걸쳐 18,735개의 문장을 다루었으며, 3개 팀에서 10개의 시스템 제출이 이루어졌습니다. 최고 성능을 보인 시스템들은 BPE(BYTE PAIR ENCODING), ULM(UNIDIRECTIONAL LANGUAGE MODEL), Morfessor2 등 세 가지 최신 하위단위 토큰화 방법보다 절대적으로 30.71% 더 우수한 성능을 보였습니다. 오류 분석을 용이하게 하고 미래 연구를 지원하기 위해 모든 시스템 예측 결과, 평가 스크립트 및 금융 표준 데이터셋을 공개했습니다.