11일 전

자동 아랍어 다이아크리티제이션을 위한 다중 구성 요소 시스템

{Shengwu Xiong, Hamza Abbad}
자동 아랍어 다이아크리티제이션을 위한 다중 구성 요소 시스템
초록

본 논문에서는 아랍어 음절 표기(디아크리티크) 자동 복원 문제를 해결하기 위한 새로운 접근법을 제안한다. 이 접근법은 3단계로 구성된 파이프라인 구조를 갖추고 있으며, 각각의 구성 요소는 다음과 같다: 다층 순환 신경망(LSTM 및 Dense 레이어 포함)을 기반으로 한 딥러닝 모델, 문자 수준에서 결정론적 연산을 적용하여 일부 오류를 방지하는 규칙 기반 수정기, 그리고 문맥 정보와 편집 거리(edit distance) 정보를 활용하여 일부 음절 표기 문제를 수정하는 단어 수준 통계적 수정기이다. 본 방법은 서로 다른 유형의 기법을 결합하고, 편집 거리 기반 수정을 추가함으로써 기존의 접근과 차별화되는 혁신적인 특징을 지닌다.학습 및 테스트를 위해, 우리는 정제 및 정규화된 후 대규모 공개 데이터셋(Tashkeela)을 사용하였다. 이 데이터셋은 원시적인 음절 표기 아랍어 텍스트를 포함하고 있다. 새로 공개된 벤치마크 테스트 세트에서, 본 시스템은 모든 아랍어 자음에 대해 DER(음절 오류율, Diacritization Error Rate) 3.39%, WER(단어 오류율, Word Error Rate) 9.94%의 성능을 달성하였으며, 각 단어의 마지막 자음에 대한 음절 표기 무시 시에는 DER 2.61%, WER 5.83%의 성능을 기록하여, 비교 대상 모든 시스템보다 뛰어난 성능을 보였다.

자동 아랍어 다이아크리티제이션을 위한 다중 구성 요소 시스템 | 최신 연구 논문 | HyperAI초신경