
초록
이 논문은 SIGMORPHON 2022 공동 과제(Morpheme Segmentation)에 DeepSPIN이 제출한 결과를 소개한다. 우리는 모두 단어 수준 하위 과제에 세 가지 제출을 진행하였다. 먼저, entmax 기반의 희소 시퀀스-투-시퀀스 모델이 기존의 softmax 기반 모델에 비해 크게 성능을 향상시킴을 보이며, 다른 과제들에서 보고된 결과와 일치함을 보여준다. 다음으로, 형태소 과제를 위한 모델은 문자 수준에서 학습되어야 한다는 전제를 도전하기 위해, 유니그램 언어 모델에 의해 유도된 서브워드의 시퀀스로서 형태소를 생성하는 트랜스포머 모델을 구축한다. 이 서브워드 기반 트랜스포머는 모든 문자 수준 모델보다 뛰어난 성능을 보이며, 단어 수준 하위 과제에서 우승을 차지한다. 공식적으로 문장 수준 하위 과제에 제출하지는 않았지만, 이 서브워드 기반 접근법이 문장 수준에서도 매우 효과적임을 보여준다.