16일 전
모르페소어 강화 특징과 다국어 훈련을 통한 표준 형태소 분할
{Mikko Kurimo, Mathias Creutz, Sami Virpioja, Stig-Arne Grönroos, Aku Rouhe}

초록
SIGMORPHON 2022 공동 과제인 형태소 분할(shared task)에 제출한 본 연구에서는, 무 supervision 형태소 분할 방법인 Morfessor가 supervision 환경에서 유용한지를 탐구한다. 기존 연구들은 소량의 레이블링된 데이터를 가진 semi-supervised 환경에서 이 접근 방식의 효과성을 보여주었다. 현재의 과제들은 데이터 규모 측면에서 다양성을 보이며, 단어 수준의 레이블링된 학습 데이터는 상당히 많지만, 문장 수준의 레이블링된 학습 데이터는 여전히 적은 편이다. 본 연구의 접근 방식은 신경망 시퀀스-투-시퀀스 모델의 입력 데이터를 무 supervision 방법으로 사전 분할하는 것이다. 무 supervision 방법은 원시 텍스트 데이터로 학습이 가능하므로, 위키백과를 활용하여 학습 데이터의 양을 늘리는 방식을 사용하였다. 또한 문장 수준 과제에 대해 다국어 모델을 별도로 학습시켰다. Morfessor를 활용한 특징 강화 결과는 혼합적이었으며, 문장 수준의 세 가지 과제에서는 모두 유익한 영향을 보였지만, 단어 수준 과제에서는 일부 과제에서만 긍정적인 효과를 나타냈다. 다국어 학습은 독립적인 언어 모델보다 문장 수준 과제에서 상당한 성능 향상을 가져왔으나, 이는 특징 강화 효과를 상쇄시켰다.