2달 전

CATT: 문자 기반 아랍어 타시일 변환기

Faris Alasmary; Orjuwan Zaafarani; Ahmad Ghannam
CATT: 문자 기반 아랍어 타시일 변환기
초록

타슈일(Tashkeel) 또는 아랍어 텍스트 표음화(Arabic Text Diacritization, ATD)는 모호성을 제거하고 그 부재로 인한 오해의 위험을 최소화하여 아랍어 텍스트 이해를 크게 향상시킵니다. 이는 특히 텍스트-음성 변환 및 기계 번역과 같은 응용 프로그램에서 아랍어 텍스트 처리를 개선하는 데 중요한 역할을 합니다. 본 논문에서는 ATD 모델 학습에 대한 새로운 접근법을 소개합니다. 먼저, 사전 학습된 문자 기반 BERT에서 초기화된 두 개의 트랜스포머(인코더만 있는 모델과 인코더-디코더 모델)를 fine-tuning하였습니다. 그런 다음, 성능을 개선하기 위해 Noisy-Student 접근법을 적용하였습니다. 우리는 WikiNews와 우리 CATT 데이터셋이라는 두 개의 수동으로 라벨링된 벤치마크 데이터셋을 사용하여 11개의 상업적 및 오픈 소스 모델과 함께 우리의 모델들을 평가하였습니다. 연구 결과, 우리의 최고 모델은 WikiNews와 CATT에서 각각 30.83%와 35.21%의 상대적인 표음 오류율(Diacritic Error Rates, DERs)로 모든 평가된 모델을 능가하며, ATD 분야에서 최신 기술(state-of-the-art)을 달성하였습니다. 또한, 우리의 모델이 CATT 데이터셋에서 GPT-4-turbo보다 9.36%의 상대적인 DER로 우수한 성능을 보임을 확인하였습니다. 우리는 연구 커뮤니티를 위해 CATT 모델과 벤치마크 데이터셋을 오픈 소스로 공개합니다.\footnote{https://github.com/abjadai/catt}

CATT: 문자 기반 아랍어 타시일 변환기 | 최신 연구 논문 | HyperAI초신경