17 天前

Sagalee:面向奥罗莫语的开源自动语音识别数据集

Turi Abu, Ying Shi, Thomas Fang Zheng, Dong Wang
Sagalee:面向奥罗莫语的开源自动语音识别数据集
摘要

我们提出了一种面向奥罗莫语(Oromo)的新型自动语音识别(ASR)数据集。奥罗莫语是埃塞俄比亚及其周边地区使用最广泛的语言之一。该数据集通过众包方式收集,涵盖多样化的说话人及丰富的语音变体,包含100小时的真实场景音频录音及其对应转写文本,覆盖了在安静与嘈杂环境下的朗读语音。该数据集填补了奥罗莫语在ASR资源方面长期匮乏的空白,满足了该语言在语音识别领域的重要需求。为验证该数据集在ASR任务中的适用性,我们采用Conformer模型进行了实验,分别在混合CTC与AED损失(hybrid CTC and AED loss)下取得了15.32%的词错误率(Word Error Rate, WER),在纯CTC损失下达到18.74%的WER。此外,通过对Whisper模型进行微调,显著提升了识别性能,将WER降低至10.82%。这些结果为奥罗莫语ASR研究建立了基准,既揭示了当前技术面临的挑战,也展现了进一步提升识别性能的巨大潜力。该数据集已公开发布于:https://github.com/turinaf/sagalee,我们诚挚鼓励研究者和开发者使用该数据集,推动奥罗莫语语音处理技术的持续研究与应用发展。