
要約
オロモ語(Oromo)はエチオピアおよび周辺地域で広く話されている言語であり、本研究では、そのための新しい自動音声認識(ASR)データセットを提案する。このデータセットはクラウドソーシングを活用して収集され、多様な話者と音声的変異を含むものである。本データセットは、清浄環境およびノイズ環境の両方で読み上げられた発話を含む、合計100時間の現実世界の音声録音とその転写文を備えている。オロモ語はこれまでASRリソースにおいて著しく不足している状況にあり、本データセットはその重要な課題に応えるものである。ASRタスクにおける実用性を検証するため、Conformerモデルを用いた実験を行った結果、ハイブリッドCTCとAED損失を用いた場合、単語誤り率(WER)は15.32%、純粋なCTC損失を使用した場合では18.74%を達成した。さらに、Whisperモデルのファインチューニングにより、著しく改善されたWER 10.82%を達成した。これらの結果は、オロモ語ASRにおける基準性能を確立し、その課題とさらなる性能向上の可能性を示している。本データセットは、https://github.com/turinaf/sagalee にて公開されており、オロモ語音声処理に関するさらなる研究開発を促進するため、広く利用を呼びかけている。