2달 전
AttaCut: 빠르고 정확한 신경망 기반 태국어 단어 분리기
Pattarawat Chormai; Ponrawee Prasertsom; Attapol Rutherford

초록
태국어 자연어 처리를 위한 단어 분할은 기본적인 사전 처리 단계입니다. 현재 상용화된 솔루션들은 일관성 있게 벤치마킹되지 않아, 그들의 장단점을 비교하기 어려웠습니다. 우리는 세 가지 다른 영역에서 인기 있는 시스템들의 속도와 정확도를 비교하였으며, 최신 딥러닝 시스템이 느리고 더욱이 서브워드 구조를 모델에 활용하지 않는다는 것을 발견하였습니다. 이에 본 연구에서는 각 문자의 환경을 포착하기 위해 확장된 CNN 필터를 사용하고 음절 임베딩을 특징으로 활용하는 빠르고 정확한 신경망 기반 태국어 단어 분할기를 제안합니다. 우리의 시스템은 최소 5.6배 더 빠르며 일부 영역에서 이전의 최신 시스템을 능가합니다. 또한, 우리는 처음으로 ML(머신러닝) 기반의 태국어 음절 분할기를 개발하여, 이를 통해 얻은 음절 임베딩을 단어 분할기의 특징으로 사용할 수 있도록 하였습니다.