Command Palette

Search for a command to run...

4달 전

기반 기반 타이어 단어 분할 기법: 다중 어텐션 기반 접근

{Manabu Okumura Hidetaka Kamigaito Thodsaporn Chay-intr}

초록

형태소 기반의 단어 분할 모델은 높은 성능을 보이며, 태국어를 포함한 접착어(langue agglutinative)에 널리 적용되어 왔다. 이러한 모델들은 문자 시퀀스로부터 단어 경계를 추정한다. 그러나 문자 시퀀스 내의 문자 단위는 단어, 하위어, 문자 군집 단위에 비해 본질적인 의미를 갖지 못한다. 본 연구에서는 문자 시퀀스로부터 단어, 하위어, 문자 군집과 같은 다양한 유형의 정보를 활용하는 태국어 단어 분할 모델을 제안한다. 제안하는 모델은 문자와 다양한 단위 유형 간의 중요한 관계를 추정함으로써 다중 주의(multi-attention)를 적용하여 분할 추론을 정교화한다. 실험 결과, 제안 모델이 기존 최고 수준의 태국어 단어 분할 모델들을 능가함을 확인하였다.

벤치마크

벤치마크방법론지표
thai-word-tokenization-on-best-2010Multiple Attentions (char-word-cc)
F1-Score: 0.9899

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
기반 기반 타이어 단어 분할 기법: 다중 어텐션 기반 접근 | 연구 논문 | HyperAI초신경