16일 전

어휘 주의(Word Attention)를 문자 기반 어절 분할에 통합하기

{Shohei Higashiyama, Masao Utiyama, Yoshiaki Oida, Yohei Sakamoto, Masao Ideuchi, Eiichiro Sumita, Isaac Okada}
어휘 주의(Word Attention)를 문자 기반 어절 분할에 통합하기
초록

신경망 모델은 특징 엔지니어링에 드는 노력을 최소화할 수 있는 능력 덕분에, 특히 중국어와 같은 언어의 단어 분할에 적극적으로 활용되어 왔다. 대표적인 분할 모델은 정확한 추론을 수행하기 위한 문자 기반 모델과 단어 수준의 정보를 활용하기 위한 단어 기반 모델로 나뉜다. 본 연구에서는 두 가지 모델의 장점을 살릴 수 있도록 단어 정보를 활용하는 문자 기반 모델을 제안한다. 제안하는 모델은 어텐션 메커니즘을 기반으로 특정 문자에 대해 여러 후보 단어의 중요도를 학습하며, 이를 분할 결정에 활용한다. 실험 결과, 제안 모델은 일본어 및 중국어 기준 데이터셋에서 최신 기술(SOTA) 모델보다 더 우수한 성능을 보였다.

어휘 주의(Word Attention)를 문자 기반 어절 분할에 통합하기 | 최신 연구 논문 | HyperAI초신경