17일 전

사갈리: 오로모어를 위한 오픈 소스 자동 음성 인식 데이터셋

Turi Abu, Ying Shi, Thomas Fang Zheng, Dong Wang
사갈리: 오로모어를 위한 오픈 소스 자동 음성 인식 데이터셋
초록

우리는 에티오피아 및 인접 지역에서 널리 사용되는 오로모어(오로모 언어)를 위한 새로운 자동 음성 인식(ASR) 데이터셋을 제안한다. 이 데이터셋은 커뮤니티 기반 모금 활동을 통해 수집되었으며, 다양한 화자와 음성적 변이를 포함하고 있다. 총 100시간의 실제 환경 음성 녹음 데이터와 해당 음성의 텍스트 전사가 포함되어 있으며, 깨끗한 환경과 노이즈가 있는 환경에서의 독해 발화를 모두 커버한다. 이 데이터셋은 오로모어에 대한 ASR 자원이 부족한 현상에 대응하는 중요한 필요성을 충족시킨다. ASR 작업에서의 활용 가능성을 입증하기 위해 Conformer 모델을 활용한 실험을 수행한 결과, 하이브리드 CTC와 AED 손실을 사용할 때 단어 오류율(WER)은 15.32%를 기록하였으며, 순수 CTC 손실을 사용했을 경우 WER는 18.74%였다. 또한, Whisper 모델을 미세조정(fine-tuning)한 결과, 단어 오류율이 10.82%로 크게 향상되었다. 이러한 결과는 오로모어 ASR에 대한 기준 성능을 제시하며, 오로모어 음성 인식의 성능 향상에 있어 여전히 도전 과제가 존재함과 동시에 그 잠재력이 크다는 점을 시사한다. 본 데이터셋은 공개적으로 https://github.com/turinaf/sagalee 에서 제공되며, 오로모어 음성 처리 분야의 추가 연구 및 개발을 위해 적극적으로 활용될 것을 권장한다.