11일 전

LATTE: 기호 기반 단어 분할을 위한 격자 주의 편향 인코딩

{Manabu Okumura, Kotaro Funakoshi, Hidetaka Kamigaito, Thodsaporn Chay-intr}
LATTE: 기호 기반 단어 분할을 위한 격자 주의 편향 인코딩
초록

문자 시퀀스는 하나 이상의 분할 대안을 포함할 수 있다. 이러한 현상은 분할 모호성( segmentation ambiguity)으로 간주되며, 단어 분할 성능에 약화를 초래할 수 있다. 이러한 모호성을 적절히 다루면 단어 경계에 대한 모호한 결정을 줄일 수 있다. 기존 연구들은 그래프 기반 및 사전 학습 모델과 함께 레이티스(lattice)를 도입함으로써 분할 대안을 효과적으로 포착할 수 있는 장점 덕분에 뛰어난 분할 성능을 달성하고 모호성 문제를 완화해왔다. 그러나 이러한 모델이 인코딩하는 레이티스 내에는 문자와 단어 등 다양한 분할 granularity 정보가 포함되어 있으나, 이를 충분히 주의 깊게 활용하지 못하는 경우가 있다. 레이티스 내의 다중 granularity 표현을 강화하기 위해, 본 연구는 기반 문자 기반 단어 분할을 위한 Lattice ATTentive Encoding (LATTE) 방법을 제안한다. 본 모델은 레이티스 구조를 활용하여 분할 대안을 처리하고, 그래프 신경망(GNN)과 주의 메커니즘(attention mechanism)을 결합하여 레이티스로부터 다중 granularity 표현을 주의 깊게 추출함으로써 문자 표현을 보완한다. 실험 결과, 일본어, 중국어, 태국어를 포함한 세 언어의 BCCWJ, CTB6, BEST2010 데이터셋에서 단어 분할 성능이 향상되었으며, 특히 일본어와 중국어, 태국어에서 두드러진 개선이 관찰되었다.

LATTE: 기호 기반 단어 분할을 위한 격자 주의 편향 인코딩 | 최신 연구 논문 | HyperAI초신경