12일 전

기반 기반 타이어 단어 분할 기법: 다중 어텐션 기반 접근

{Manabu Okumura, Hidetaka Kamigaito, Thodsaporn Chay-intr}
초록

형태소 기반의 단어 분할 모델은 높은 성능을 보이며, 태국어를 포함한 접착어(langue agglutinative)에 널리 적용되어 왔다. 이러한 모델들은 문자 시퀀스로부터 단어 경계를 추정한다. 그러나 문자 시퀀스 내의 문자 단위는 단어, 하위어, 문자 군집 단위에 비해 본질적인 의미를 갖지 못한다. 본 연구에서는 문자 시퀀스로부터 단어, 하위어, 문자 군집과 같은 다양한 유형의 정보를 활용하는 태국어 단어 분할 모델을 제안한다. 제안하는 모델은 문자와 다양한 단위 유형 간의 중요한 관계를 추정함으로써 다중 주의(multi-attention)를 적용하여 분할 추론을 정교화한다. 실험 결과, 제안 모델이 기존 최고 수준의 태국어 단어 분할 모델들을 능가함을 확인하였다.

기반 기반 타이어 단어 분할 기법: 다중 어텐션 기반 접근 | 최신 연구 논문 | HyperAI초신경