2달 전

깊은 신경망을 이용한 아랍어 텍스트 발음 기호화

Ali Fadel; Ibraheem Tuffaha; Bara' Al-Jawarneh; Mahmoud Al-Ayyoub
깊은 신경망을 이용한 아랍어 텍스트 발음 기호화
초록

아랍어 텍스트의 성조 부호화는 다양한 응용 분야를 가진 동시에 흥미롭고 도전적인 문제입니다. 이 응용 분야는 음성 합성부터 아랍어 학습을 돕는 학생들에게 이르기까지 다양합니다. 아랍어 처리의 다른 많은 작업이나 문제와 마찬가지로, 이 문제에 대한 미흡한 노력과 사용 가능한 오픈 소스 자원의 부족은 이 문제 해결을 위한 진전을 방해하고 있습니다. 본 연구에서는 현재 존재하는 아랍어 텍스트 성조 부호화 시스템, 측정 방법 및 자원에 대한 비판적 검토를 제공합니다. 또한, 모든 사람이 자유롭게 사용할 수 있는 정제된 데이터셋을 소개하며, 이 데이터셋은 아랍어 성조 부호화 연구에서 벤치마킹하기 쉽습니다. Tashkeela 코퍼스에서 추출된 이 데이터셋은 약 230만 단어를 포함하는 55,000줄로 구성되어 있습니다. 데이터셋 구축 후, 기존 도구와 시스템들을 이를 통해 테스트하였습니다. 실험 결과는 신경망 기반 Shakkala 시스템이 전통적인 규칙 기반 접근법과 다른 폐쇄형 소스 도구들보다 유의미하게 우수함을 보여주며, 성조 부호 오류율(DER)이 2.88%로 나타났습니다. 이는 비신경망 접근법 중 최상의 DER(Shakkala 도구를 통해 얻음)인 13.78%와 비교됩니다.

깊은 신경망을 이용한 아랍어 텍스트 발음 기호화 | 최신 연구 논문 | HyperAI초신경