17 天前
MediaSpeech:多语言ASR基准测试与数据集
Rostislav Kolobov, Olga Okhapkina, Olga Omelchishina, Andrey Platunov, Roman Bedyakin, Vyacheslav Moshkin, Dmitry Menshikov, Nikolay Mikhaylovskiy

摘要
自动语音识别(ASR)系统的性能在不同应用场景中表现差异显著。然而,目前厂商和研究机构报告的ASR性能结果通常局限于少数简单应用场景(如有声书、TED演讲)或专有数据集。为弥补这一空白,我们发布了一个开源的10小时ASR系统评估数据集——NTR MediaSpeech,涵盖西班牙语、法语、土耳其语和阿拉伯语四种语言。该数据集从各语言媒体机构的官方YouTube频道中采集,并经过人工转写。我们估计该数据集的词错误率(WER)低于5%。我们对多种商用及开源ASR系统进行了基准测试,并公布了测试结果。此外,我们还开源了每种语言的基准模型——QuartzNet模型,以促进后续研究与开发。