12일 전

ThaiLMCut: 태국어 단어 분할을 위한 비지도 사전 훈련

{Hinrich Sch{\u}tze, Michael Matuschek, Liliana Mamani Sanchez, Ivan Bilan, Suteera Seeha, Johannes Huber}
ThaiLMCut: 태국어 단어 분할을 위한 비지도 사전 훈련
초록

우리는 레이블이 없는 데이터로부터 유용한 언어학적 지식을 활용하기 위해 양방향 문자 언어 모델(LM)을 사용하는 반감독 학습 방식인 ThaiLMCut을 제안한다. 언어 모델이 대규모 레이블 없는 텍스트 데이터셋에서 사전 학습된 후, 해당 모델의 임베딩 계층과 순환 계층의 가중치가 감독 학습 기반의 단어 분절 모델로 전이되며, 이후 해당 모델은 단어 분절 작업을 위해 이 가중치들을 추가로 미세 조정한다. 실험 결과에 따르면, 언어 모델을 적용하는 것은 항상 성능 향상 효과를 가져오며, 특히 레이블이 부족한 경우에 그 효과가 두드러진다. 이러한 상황에서는 F1 점수가 최대 2.02%까지 상승한다. 또한, 대규모 레이블 데이터셋에서도 작은 성능 향상이 여전히 가능하다. 더불어, 도메인 외부(Out-of-domain) 환경에서도 본 방법이 매우 유용함을 확인하였으며, F1 점수는 최대 3.13% 향상되었다. 마지막으로, 표준 벤치마크인 InterBEST2009에서 ThaiLMCut이 다른 오픈소스 최신 모델들을 상회하며 F1 점수 98.78%를 달성함을 보여주었다.

ThaiLMCut: 태국어 단어 분할을 위한 비지도 사전 훈련 | 최신 연구 논문 | HyperAI초신경