17 天前
Libri-Light:面向有限或无监督场景的自动语音识别基准测试
Jacob Kahn, Morgane Rivière, Weiyi Zheng, Evgeny Kharitonov, Qiantong Xu, Pierre-Emmanuel Mazaré, Julien Karadayi, Vitaliy Liptchinsky, Ronan Collobert, Christian Fuegen, Tatiana Likhomanenko, Gabriel Synnaeve, Armand Joulin, Abdelrahman Mohamed, Emmanuel Dupoux

摘要
我们提出一个适用于在有限或无监督条件下训练语音识别系统的新型英语语音音频数据集。该数据集源自开源有声书项目LibriVox,包含超过6万小时的音频内容,据我们所知,这是目前公开可获取的规模最大的语音语料库。音频已通过语音活动检测(Voice Activity Detection)进行分割,并标注了信噪比(SNR)、说话人ID以及体裁信息。此外,我们提供了三种不同设置下的基线系统与评估指标:(1)零资源/无监督设置(ABX),(2)半监督设置(PER、CER),以及(3)远距离监督设置(WER)。其中,设置(2)和(3)均使用少量对齐文本资源(10分钟至10小时),而设置(3)则采用大量未对齐的文本数据。所有方法均在标准的LibriSpeech开发集和测试集上进行评估,以便与有监督条件下的最先进方法进行对比。