2달 전
신경망 아랍어 텍스트 다이아크리티제이션: 최신 연구 결과와 기계 번역을 위한 새로운 접근법
Ali Fadel; Ibraheem Tuffaha; Bara' Al-Jawarneh; Mahmoud Al-Ayyoub

초록
본 연구에서는 아랍어 텍스트의 자동 성조 부호화를 위한 여러 딥 러닝 모델을 제시합니다. 우리의 모델은 피드포워드 신경망(Feed-Forward Neural Network, FFNN)과 순환 신경망(Recurrent Neural Network, RNN)이라는 두 가지 주요 접근 방식을 기반으로 구축되었으며, 100-핫 인코딩, 임베딩, 조건부 랜덤 필드(Conditional Random Field, CRF), 블록 정규화 그래디언트(Block-Normalized Gradient, BNG) 등의 여러 개선 사항이 적용되었습니다. 이 모델들은 유일하게 무료로 제공되는 벤치마크 데이터셋에서 테스트되었으며, 결과는 우리 모델들이 언어 종속적인 후처리 단계가 필요한 다른 모델들보다 더 우수하거나 비슷함을 보여주었습니다. 또한 우리는 아랍어 성조 부호화를 통해 기계 번역(Machine Translation, MT)과 같은 자연어 처리(NLP) 작업의 모델을 강화할 수 있다는 점을 Translation over Diacritization (ToD) 접근법을 제안하여 입증하였습니다.